机 器 学 习 从 业 人 员 的 艰难 选择 











作为 机 器 学 习 从 业 人 员 ， 如 果 今 天 突然 被 公司 或 学 校 开除 ， 你 能 养活 自己 吗 ” 邻 居 老 大 妈 买 士 鸡蛋 不 买 神经 网 络 模型 ， 东 门 老大 爷 认识 郭德纲 不 认识 朴素 贝 叶 斯 ， 面 容 婉 好 的 “ 翠 花 ” 只 认 房 产 证 不 认 
Zookeeper。 即 使 你 身 怀 绝技 ， 有 着 远大 的 抱负 ， 机 器 学 习 应 用 难以 变现 也 是 事实 。 为 了 能 维持 生计 ， 众 多 机 器 学 习 从 业 人 员 只 能 进入 大 公司 、 大 组 织 。 但 限于 流程 和 已 有 的 体制 ， 在 这 样 的 工作 环境 下 ， 
他 们 很 难 完全 发 挥 自己 的 潜能 。 









































太 多 的 好 朋友 ， 在 脱离 体制 和 大 公司 的 时 候 豪情 万 丈 ， 吃 散 伙 饭 时 和 战友 们 慷慨 激昂 ， 唱 着 真心 英雄 ， 梦 想 着 自己 也 有 回 到 北京 东 二 环 开 始 指点 江山 的 一 天 。 可 是 第 二 天 带 着 宿 醉 起 床 面 对 着 电脑 屏幕 
时 ， 却 不 知道 该 怎么 开始 。 没 错 ， 我 们 都 有 自己 的 想法 ， 我 们 自己 就 是 程序 员 ， 比 那些 在 创业 街 上 卖 PPT 的 人 “厉害 ”多 了 。 可 是 在 工业 界 ， 不 管 是 初 入 职场 的 新 人 ， 还 是 久 经 沙场 的 老将 ， 都 需要 在 业余 







































































时 间 不 停 地 刷 题 ， 练 习 “LeetCode”[1] 中 的 习题 ， 以 应 对 不 时 之 需 。 这 样 的 生存 方式 严重 阻碍 了 知识 经 济 的 发 展 ， 更 不 要 提 为 祖国 健康 工作 五 十 年 了 。 与 大 组 织 、 巨 无 霸 企业 不 同 的 是 ， 自 主创 业 往往 需 
开发 人 员 全 栈 的 技术 能 力 。 大 公司 里 面 的 技术 能 手 在 独立 创业 的 时 候 也 不 免 会 遇 到 下 面 这 些 很 基本 的 问题 : 






























































“ 服务 器 从 哪里 来 ? 

: 以 前 单位 、 导 师 手 里 有 一 套 自 主 开发 的 大 数据 平台 ， 现 在 自己 单干 了 没 法 用 ， 怎 么 办 ? 

“ 以 前 用 的 机 器 学 习 软 件 包 是 菜 个 “牛人 ”自己 开发 的 “独门 武功 ”， 只 在 公司 内 部 用 ， 现 在 该 用 什么 ? 
“ 模型 训练 出 来 了 ， 又 怎么 部 署 ? 

: 总 算 东 拼 西 凑 写 好 了 一 个 流程 ， 接 下 来 如 何 实现 数据 可 视 化? 


:总算 有 客户 开始 用 了 ， 怎 么 样 才 能 对 结果 实时 监控 ? 





这 个 时 候 你 才 会 想起 马云 的 那 句 话 : “离开 公司 了 你 什么 都 不 是 ”。 还 是 回 大 公司 吧 ， 至 少 比较 安稳 .… 
总 结 起 来 ， 机 器 学 习 从 业 人 员 的 难处 有 三 点 。 
“ 技能 无 法 直接 转化 为 经 济 效益 : 必须 依靠 大 组 织 、 公 司 ， 才 能 实现 经 济 效益 的 转化 。 这 必然 要 求 从 业 人 员 服从 诸多 的 条 款 和 价值 观 ， 这 对 他 们 工作 效率 和 积极 性 来 说 都 是 沉重 的 负担 。 


“ 选 代 速 度 受 牵 制 : 虽然 开源 社区 拥有 众多 非常 优秀 的 工具 ， 但 大 公司 、 大 组 织 往往 都 有 众多 历史 遗留 架构 ， 这 使 得 开发 部 署 过 程 变 得 异常 漫长 。 与 此 同时 ， 从 业 人 员 也 会 觉得 所 学 的 知识 将 来 无 法 为 
自己 所 用 ， 因 此 感到 空虚 。 


“ 出 成 果 压 力 大 : 高 投入 就 需要 有 高 回报 。 机 器 学 习 从 业 人 员 薪 资 非常 高 ， 因 此 公司 对 从 业 人 员 进 行 新 架构 、 新 项 目 开发 的 耐心 往往 也 非常 有 限 。 就 算是 从 公司 利益 出 发 ， 进 行 架构 、 代 码 的 革新 ， 从 
业 人 员 往 往 也 会 担 上 不 少 风险 。 如 果 不 能 在 短 时 间 内 实现 架构 ， 或 者 新 训练 的 模型 不 能 达到 预期 目标 ， 从 业 人 员 的 工作 稳定 性 将 会 得 不 到 保证 。 


老板 、 管 理 人 员 的 困境 























机 器 学 习 从 业 人 员 有 自己 的 困难 ， 公 司 的 老总 、 经 理 也 有 伤 脑筋 的 事情 。2015 年 KDNuggets 调 查 数据 显示 ， 工 业界 超过 半数 的 数据 科学 家 在 一 个 职位 上 的 工作 时 间 一 般 都 少 于 两 年 。 另 外 美国 旧金山 
区 的 机 器 学 习 科 学 家 在 一 个 职位 上 平均 只 会 停留 8 个 月 。 这 么 高 的 跳槽 频率 让 众多 雇主 也 提心吊胆 。 根 据 笔 者 的 经 验 ， 机 器 学 习 从 业 人 员 ， 从 入 职 到 真正 开始 产生 正 现 金 流 ， 至 少 需要 9 个 月 左右 的 时 间 。 
太 短 的 工作 年 限 对 于 很 多 雇主 来 说 远 远 不 足以 收回 成 本 。 
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有 的 公司 财力 雄厚 ， 高 薪 聘 请 了 拥有 谷歌 工作 经 验 的 斯 坦 福 大 学 博士 ， 但 这 名 博士 入 职 三 个 月 ， 文 章 发 表 了 四 篇 ， 会 开 了 五 场 ， 可 是 机 器 学 习 模型 拿 到 实际 工作 环境 中 的 效果 却 不 理想 ， 无 法 上 线 。 结 
果 令 人 浊 丧 。 
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资金 实力 不 太 充裕 的 初创 公司 就 更 难 了 。 本 身 财力 有 限 ， 招 人 靠 情怀 来 对 冲 。 好 不 容易 找到 了 志同道合 的 人 ， 开 口 就 问 人 家 要 GPU 集 群 ， 而 现成 的 机 器 学 习 框 架 中 TensorFlow 太 慢 ，PaddlePaddle 太 
差 ， 往 往 有 一 些 以 技术 为 主打 的 初创 公司 ， 专 心 于 核心 软件 开发 ， 而 速度 太 慢 ， 结 果 还 没 开 始 上 线 产生 效益 ， 当 时 所 在 的 初创 公司 就 已 经 烧 断 了 现金 流 。 

















3 一 方面 ， 老 概 从 来 不 敢 对 机 器 学 习 从 业 人 员 过 分 施 压 。 因 为 若 施 压 太 大 ， 再 加 上 现在 市 场 对 机 器 学 习 专 家 的 需求 旺盛 ， 机 器 学 习 员工 都 是 一 言 不 合 就 跳槽 。 施 压 太 小 ， 机 器 学 习 员工 就 会 开始 面向 简 
历 的 开发 模式 ， 一 会 儿 去 欧洲 开会 ， 一 会 儿 开 源 个 深度 学 习 框 架 ， 就 是 不 上 线 真 正 能 赚钱 的 产品 ， 这 又 怎 能 不 让 人 着 急 ? 








总 结 起 来 ， 管 理 人 员 的 难处 有 以 下 三 点 。 








“ 双重 身份 的 矛盾 : 机 器 学 习 开 发 人 员 到 底 算 科 学 家 还 是 算 程序 员 ? 这 是 一 个 管理 者 需要 面 对 的 根本 性 问题 。 若 把 机 器 学 习 开 发 人 员 看 成 科学 家 ， 就 要 做 好 所 有 投资 都 打 水 漂 的 心理 准备 ， 投 资 回报 率 
可 能 非常 低 ; 若 把 机 器 学 习 开 发 人 员 看 成 程序 员 ， 就 要 给 其 足够 的 自由 度 和 福利 ， 并 且 做 好 开发 人 员 守 余 ， 对 员工 突然 离职 的 情况 做 好 准备 。 








: 利益 冲突 的 矛盾 : 现在 机 器 学 习 人 员 的 流动 性 很 高 ， 公 司 需 要 出 效益 ， 而 工作 人 员 需 要 出 好 看 的 简历 。 在 很 多 情况 下 ， 这 两 个 需求 是 背道而驰 的 。 本 书后 文 会 对 各 种 机 器 学 习 架 构 进行 综述 ， 其 中 不 
乏 员工 为 了 充实 简历 而 开发 的 “政绩 工程 ”。 通 过 对 本 书 的 学 习 ， 相 信 管理 人 员 的 眼睛 也 会 擦 亮 不 少 。 





“ 和 商业 部 门 整合 的 矛盾 : 机 器 学 习 科学 家 往往 醉心 于 开发 最 复杂 最 尖端 的 模型 ， 以 取得 机 器 学 习 理 论 上 的 最 佳 效果 。 可 是 很 多 机 器 学 习 模型 的 可 解释 度 并 不 好 ， 无 法 让 业务 部 门 对 模型 进行 可 视 化 解 
读 。 虽 然 机 器 学 习 工 具 众多 ， 但 是 能 将 机 器 学 习 模型 和 可 视 化 系统 整合 起 来 的 程序 却 非常 少 。 本 书 所 描述 的 架构 和 可 视 化 部 分 会 对 这 个 问题 进行 解答 。 














总 的 来 说， 企业 求生 求 利 的 动力 意味 着 开发 人 员 必 须 短 平 快 地 出 结果 ; 机 器 学 习 模型 效果 的 不 确定 性 意味 着 管理 人 员 必 须 拥抱 不 确定 性 ; 机 器 学 习 从 业 人 员 的 高 流动 性 意味 着 公司 和 组 织 必须 采取 灵活 
的 开发 流程 和 架构 。 














什么 样 的 技术 成 长 道路 ， 才 能 让 我 们 施展 自己 的 才华 ， 同 时 快乐 地 养活 自己 ?什么 样 的 职业 发 展 模式 ， 才 能 让 我 们 真正 掌握 自己 的 命运 ， 去 改变 世界 ， 而 不 是 为 北京 、 上 海 、 深 圳 高 昂 的 房价 发 愁 ? 什 
么 样 的 架构 设计 ， 才 能 让 我 们 的 生活 回 到 朝 九 晚 五 的 正常 模式 ， 能 够 每 天 六 点 回 家 和 家 人 吃 晚 餐 ， 和 心爱 的 人 看 星星 看 月 亮 ? 
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起 初 机 械 工业 出 版 社 华章 公司 的 杨 绣 国 编辑 联系 到 作者 之 一 彭 河 森 的 时 候 ， 他 是 很 犹 滞 的 。 市 场 上 现在 已 经 有 了 很 多 优秀 的 机 器 学 习 著 作 ， 怎 么 还 需要 我 们 再 写 一 本 呢 ? 为 了 验证 我 们 的 观点 ， 我 们 去 
豆 准 等 网 站 进行 了 简单 的 市 场 调查 ， 以 “机 器 学 习 ” 为 关键 词 搜索 了 已 有 书评 。 
































搜索 的 结果 既是 意料 之 中 又 让 我 们 大 为 吃惊 。 意 料 之 中 的 是 现在 市 面 上 已 经 存在 很 多 优秀 的 机 器 学 习 相关 图 书 ， 对 机 器 学 习 模型 的 支撑 涵盖 了 从 基本 逻辑 回归 到 最 前 沿 的 深度 学 习 的 所 有 内 容 。 大 为 吃 


惊 的 则 有 如 下 两 个 方面 。 
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“ 读者 胃口 很 挑 : 没 错 ， 说 你 呢 。 我 们 发 现 众 多 机 器 学 习 图 书 都 被 打上 了 “ 太 广 、 深 度 不 够 ”的 标签 。 这 让 我 们 感觉 到 压力 巨大 ， 害 怕 我 们 的 这 本 书 也 会 打上 类 似 的 标签 。 











“ 理论 太 多 、 应 用 太 少 : 我 们 发 现 市 面 上 的 书籍 大 多 都 是 以 理论 为 主 ， 再 搭配 相应 的 编程 工具 。 对 部 署 、 系 统 架构 设计 、 后 期 可 视 化 等 重要 工作 根本 没有 提 及 。 而 我 们 预计 读者 大 多 是 在 校 学 生 ， 或 者 
是 初 入 职场 的 机 器 学 习 从 业 人 员 ， 他 们 这 个 时 候 最 需要 的 大 概 不 是 天 花 乱 险 的 理论 ， 而 是 能 切切 实 实 地 实现 机 器 学 习 模型 功能 的 指导 。 

















有 了 这 样 的 认识 之 后 ， 我 们 决定 从 应 用 和 架构 的 角度 着 手 ， 来 写作 本 书 ， 并 设立 了 如 下 的 目标 。 




















1. 以 机 器 学 习 全 栈 应 用 能 力 为 目标 























“如 果 明 天 你 就 要 被 微软 开除 ， 那 么 今天 你 希望 学 到 些 什么 ”我 们 在 撰写 这 本 书 的 时 候 一 直 以 这 样 的 精神 来 激励 自己 。 微 软 每 年 7 月 到 9 月 都 会 有 裁员 措施 ， 但 这 也 在 不 停 地 提醒 笔者 要 抓紧 时 间 好 好 
写 书 ， 贴 近 应 用 ， 这 样 才能 在 不 幸 被 裁员 的 时 候 养 活 自 己 。 这 样 的 精神 一 直 贯 穿 了 全 书 : 本 书 所 有 的 章节 都 配备 了 实际 使 用 的 案例 分 析 ， 我 们 的 案例 分 析 不 只 是 针对 当前 章节 所 学 知识 的 练习 ， 也 涉及 实际 
应 用 中 可 能 会 遇 到 的 “大 坑 ”， 以 及 相应 的 解决 办 法 。 








































































































我 们 力图 通过 Docker 等 部 署 工 具 的 介绍 ， 帮 助 读者 快速 掌握 机 器 学 习 模型 的 产业 化 进程 。 不 管 你 是 就 职 于 大 公司 ， 还 是 自己 创业 ， 我 们 都 希望 本 书 的 内 容 能 够 让 你 快速 上 线 满意 的 机 器 学 习 系统 ， 离 你 









































世界 在 改变 ， 机 器 学 习 也 在 不 停 地 改变 。 对 于 机 器 学 习 中 的 很 多 重要 成 员 ， 如 建 模 工具 、 分 布 式 队列 等 ， 本 书 都 会 对 其 来 龙 去 脉 和 发 展 趋势 进行 综述 。 希 望 通过 这 样 的 讨论 ， 能 够 让 读者 建立 起 对 机 器 
学 习 发 展 局 势 的 判断 ， 在 未 来 的 成 长 中 也 能 独占 鳌头 。 











2. 抓 住 机 器 学 习 主干 ， 远 离 学 院 派 











现今 Scikit-learn 等 软件 已 经 包含 了 大 量 的 机 器 学 习 模 块 ， 其 使 用 方法 已 经 标准 化 ， 所 以 我 们 不 准备 在 机 器 学 习 模 型 上 耗费 太 多 笔墨 。 例 如 ， 在 Scikit-learn 的 线性 模型 模块 LinearRegression 中 ， 训 练 模 
型 会 调用 ft () 函数 ， 进 行 预测 会 调用 predict () 函数 。 与 此 同时 ，scikit-learn 中 的 随机 森林 模块 RandomForest 同 样 是 调用 以 上 两 个 函数 进行 模型 的 训练 和 预测 的 。 接 口 的 统一 化 帮助 了 开发 人 员 进行 模 
块 化 开发 。 如 果 出 现 了 新 的 机 器 学 习 模型 ， 则 只 需要 替换 一 下 模型 训练 模块 即 可 。 






















































































另外 鉴于 现 如 今 网 上 丰富 的 机 器 学 习 理论 资源 ， 我 们 认为 现今 的 读者 完全 有 能 力 对 特定 的 机 器 学 习 模型 进行 自学 。 本 书 会 以 线性 模型 为 例 对 Scikit-learn 的 使 用 进行 讲解 ， 有 需要 对 其 他 机 器 学 习 模块 进 


行 学 习 的 读者 ， 也 可 以 很 容易 地 将 线性 模型 模块 替换 成 为 其 他 的 模块 。 














3. 能 读 的 代码 ， 能 运行 的 例子 











“好 多 技术 类 书籍 我 看 着 看 着 就 时 了 ， 代 码 根本 没 法 读 ”， 我 们 向 众多 好 友 征询 意见 的 时 候 收 到 了 这 样 的 反馈 。 为 了 增加 本 书 案例 的 可 读 性 ， 我 们 力求 避免 代码 的 大 段 堆 彻 。 所 有 案例 的 代码 模块 都 力 
求 在 20 行 以 下 。 














“好 多 书 的 例子 都 没 办 法 编译 ”， 我 们 写 这 本 书 的 时 候 也 听 到 了 不 少 朋友 的 “ 吐 模 ”。 我们 认为 能 正常 运行 起 来 的 例子 是 良好 学 习 体验 的 关键 。 为 此 ， 本 书 的 所 有 例子 都 通过 多 次 可 用 性 测试 ， 并 且 使 
Docker 运 行 ， 大 大 降低 了 重复 利用 的 门槛 。 同 时 我 们 将 源 代码 寄存 在 Github 上 面 ， 随 时 进行 更 新 排 错 ， 我 们 也 欢迎 读者 在 上 面 添加 Pull Request， 完 善 新 内 容 ， 与 我 们 进行 交流 。 







































































4 实时 股票 交易 、 金 融 与 情 分 析 实 例 数据 


有 很 多 IT 界 的 朋友 经 常 在 工作 累 了 的 时 候 说 : “实在 不 行 我 就 转行 去 做 金融 了 ，” 但 是 行动 起 来 去 做 金融 的 人 却 甚 少 。 既 然 在 机 器 学 习 从 业 人 员 的 眼中 金融 行业 就 像 乌托邦 那 般 美 妙 ， 那 么 为 什么 不 进 
去 看 一 看 自己 是 否 合适 呢 ? 






































外， 也 有 一 些 具有 金融 背景 的 友人 ， 他 们 急切 地 想 要 利用 机 器 学 习 方法 来 实现 自动 化 交易 。 每 年 都 有 无 数 高 考 状元 、 名 校 学 子 加 入 外 资 对 冲 基金 ， 如 果 我 们 能 够 架设 好 一 个 实时 交易 投资 的 平台 ， 没 
准 人 才 就 不 会 流失 到 华尔街 去 了 ， 而 能 为 国 所 用 呢 。 












































对 此 我 们 采用 了 美股 交易 秒 级 数据 作为 本 书 案例 的 数据 。 我 们 收集 了 2015 年 8 月 所 有 标准 普尔 500 指 数 成 分 股 每 秒 的 报价 和 成 交 量 。 这 里 的 数据 主要 是 以 时 间 序列 形式 出 现 ， 我 们 将 会 尝试 搭建 实时 机 器 
学 习 平 台 ， 对 这 些 数据 进行 存储 、 加 工分 析 和 可 视 化 ， 并 且 对 未 来 若干 秒 的 走势 进行 预测 。 如 果 一 切 顺 利 ， 我 们 可 以 从 中 得 到 Alpha (量化 交易 中 的 可 以 长 期 盈利 的 策略 ) ， 实 现 盈 利 。 





























在 后 面 的 章节 中 ， 我 们 会 从 数据 分 析出 发 ， 由 浅 到 深 地 利用 以 上 数据 进行 建 模 ， 且 在 本 书 结尾 时 实现 对 金融 数据 预测 判断 的 功能 。 

















本 书 的 学 习 方 法 








重 架构 、 重 设计 、 重 实战 是 本 书 撰写 的 指导 思想 。 我 们 认为 优秀 的 系统 设计 在 于 完备 的 思考 和 准备 ， 因 此 本 书 对 计算 机 编程 和 机 器 学 习 理 论 只 有 入 门 级 的 要 求 。 























1 .基础 知识 要 求 
























































本 书 的 两 位 笔者 之 中 ， 彭 河 森 是 统计 学 出 身 ， 汪 涵 是 应 用 数学 出 身 。 但 最 后 都 殊途同归 地 走 上 了 机 器 学 习 应 用 的 道路 。 对 于 计算 机 编程 基础 ， 本 书 的 门槛 为 国内 全 日 制 大 学 本 科 非 计算 机 专业 理科 第 二 
的 水 平 。 我 们 假设 读者 具有 基本 的 Python 编程 能 力 ， 能 在 脚本 执行 和 交互 情况 下 运行 Python 程序 。 本 书 着 重 讲解 架 构 设 计 ， 对 面向 对 象 编程 、 设 计 模式 等 课题 没有 任何 要 求 。 
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对 于 机 器 学 习 理论 基础 ， 本 书 的 门槛 为 国内 全 日 制 大 学 本 科 非 计算 机 、 统 计 、 数 学 专业 理科 第 二 年 的 水 平 。 本 书 假 设 读者 具有 基本 的 线性 代数 知识 ， 对 统计 推断 和 机 器 学 习 模型 有 基本 的 了 解 。 








2. 学 习 环境 配置 





























本 书 假设 读者 采用 了 Ubuntu 16.04 或 Mac 操 作 系统 。 新 版 Windows10 在 本 书写 作 之 时 刚刚 开始 支持 Linux Shell， 并 且 具 有 了 Ubuntu 内 核 的 支持 ， 由 于 时 间 关 系 我 们 没有 来 得 及 验证 ， 请 读者 谨慎 试 
验 。 另 外 由 于 我 们 将 在 本 书 中 大 量 使 用 Docker， 所 以 相关 软件 将 会 以 Docker 镜 像 的 形式 存在 。 我 们 将 在 相应 章节 (第 6 章 ) 中 介绍 Docker 及 其 环境 工具 的 安装 和 配置 。 本 书 对 其 他 系统 软件 的 安装 并 没有 
要 求 。 













































































每 个 章节 的 实例 内 容 都 可 以 在 Github 官 方 网 站 上 下 载 ， 地 址 为 : https://github.com/real-time-machine-learning/。 我 们 将 每 一 个 章节 的 内 容 都 分 成 一 个 独立 的 Git 存 档 ， 每 个 章节 之 间 的 程序 不 会 相 
互 关联 ， 以 方便 读者 选择 性 地 阅读 和 实践 。 


3 写作 分 工 














本 书 大 部 分 内 容 由 彭 河 森 、 汪 涵 两 人 共同 探讨 、 实 践 、 总 结 并 得 出 理论 方向 。 汪 涵 完成 了 实战 数据 库 综 述 章 节 (第 8 章 ) ; 其 他 所 有 章节 均 由 彭 河 森 完成 。 
































这 里 我 们 向 本 书写 作 过 程 中 参与 讨论 和 建议 的 唐 舌 、 陆 昊 威 、 高 试 、 汤 宇 清 、 孙 宝 臣 、Luhui Hu、 徐 易 等 专家 及 友人 表示 感谢 。 特 别 感谢 严 老 在 本 书 编写 过 程 中 两 次 收留 作者 在 家 。 


四 北美 众多 巨 无 霸 型 互联 网 公司 的 面试 内 容 类 似 于 科举 八股 文 ， 所 用 题目 被 众多 从 业 人 员 总 结 成 为 一 个 名 为 LeetCode 的 网 站 ， 是 面试 求职 人 员 的 必 看 网 站 。 


第 1 部 分 “实时 机 器 学 习 方法 论 


国 第 1 章 。 实时 机 器 学 习 综 述 
图 第 2 章 。 实时 监督 式 机 器 学 习 
图 第 3 章 数据 分 析 工具 Pandas 


国 第 4 章 ”机 器 学 习 工 具 Scikit-learn 


第 1 章 ”实时 机 器 学 习 综述 


1.1 什么 是 机 器 学 习 
































相信 本 书 的 读者 都 已 经 接触 过 一 点 机 器 学 习 了 ， 或 者 听 说 过 各 种 新 奇 的 机 器 学 习 方 法 ， 或 者 通过 相关 新 闻 了 解 过 机 器 学 习 的 应 用 场景 。 那 么 ， 大 家 是 否 了 解 机 器 学 习 的 定义 呢 ? 事实 上 ， 对 它 的 定义 层 
出 不 穷 ， 不 同 领 域 的 大 咖 往 往 都 会 有 一 个 从 自己 角度 出 发 的 特别 “机 灵 ” 的 定义 。 比 如 ， 吴 恩 达 (Andrew Ng) 是 深度 学 习 的 先驱 者 之 一 ， 他 对 机 器 学 习 的 定义 是 从 计算 机 从 业者 的 角度 出 发 的 ， 他 的 定义 
是 : 








机 器 学 习 是 一 门 科学 ， 它 旨 在 让 计算 机 自主 化 工作 ， 而 不 需要 刻意 编程 。 
而 从 统计 和 数据 分 析 的 角度 出 发 ， 世 界 领先 的 统计 软件 公司 SAS 对 机 器 学 习 的 定义 是 : 


机 器 学 习 是 一 种 方法 ， 它 旨 在 用 数据 分 析 自 动 化 模型 的 建立 。 











笔者 个 人 从 学 术 和 工业 界 应 用 的 角度 出 发 ， 认 为 机 器 学 习 的 定义 应 该 包括 以 下 三 个 方面 。 




















“ 用 数据 说 话 : 在 常规 计算 机 编程 中 ， 所 有 的 逻辑 都 是 人 为 设 定 的 。 而 机 器 学 习 方 法 是 试图 让 观测 到 的 数据 和 现象 成 为 编撰 逻辑 的 依据 ， 不 同 模型 之 间 的 衡量 标准 也 试图 尽量 达到 标准 化 ， 以 使 得 人 为 
干预 最 小 化 。 




















“ 高 度 自动 化 : 机 器 学 习 模 型 往往 会 在 工业 应 用 中 不 断 重 复 更 新 ， 所 以 机 器 学 习 建 模 生存 期 中 的 每 个 步骤 往往 都 是 可 以 高 度 自动 化 的 。 


“ 鲁 棒 性 : 虽然 教科 书 中 很 少 提 及 ， 但 鲁 棒 性 (又 称 稳定 性 ，Robustness) 确实 是 机 器 学 习 方法 论 中 隐 含 的 一 个 巨大 要 求 。 由 于 模型 建立 高 度 自动 化 ， 因 此 我 们 需要 运用 的 机 器 学 习 模 型 在 面 对 极 端 数据 
的 时 候 只 会 受到 较 少 影响 ， 不 需要 人 为 排 错 。 
























































根据 笔者 的 经 验 ， 以 上 三 点 是 一 个 组 织 成 功 运用 机 器 学 习 的 必要 条 件 ， 但 是 一 定 要 以 用 户 体 验 为 出 发 点 来 进行 均衡 。 
在 工业 应 用 中 ， 上 面 这 三 点 的 重要 性 总 是 在 不 断 得 到 印证 。 下 面 就 通过 两 个 应 用 中 的 有 名 案例 来 体会 一 下 。 























1. 谷 歌 通过 机 器 学 习 和 人 工 干预 进行 网 页 筛 查 
































谷歌 等 搜索 引擎 公司 每 天 需要 处 理 上 百 万 个 新 网 页 信息 。 为 了 向 用 户 快速 提供 这 些 信息 ， 谷 歌 多 年 来 通过 不 懈 的 努力 开发 出 了 Caffeine 平 台 ， 将 提供 实时 新 闻 搜索 结果 的 延迟 从 一 天 缩短 到 了 若干 分 
钟 。 机 器 学 习 数据 驱动 、 高 度 自动 化 的 特点 让 谷歌 用 户 受 益 不 少 。 就 连 微软 在 通过 记者 发 布 会 宣布 发 行 Windows10 的 时 候 ， 谷 歌 搜索 引擎 也 比 微软 自 有 的 必 应 搜索 引擎 更 快 地 呈现 了 与 Windows10 相 关 的 


连 入 
信息 。 同 时 为 了 满足 鲁 棒 性 的 要 求 ， 谷 歌 通过 第 三 方 人 工 服务 ， 不 断 进行 人 工 抽样 审查 了 大 量 的 网 页 内 容 。 

















用 





















































2.Yelp 机 器 学 习 模型 的 失败 
































Yelp 类 似 于 国内 的 大 众 点 评 网 ， 其 内 容 多 为 用 户 生 成 ， 对 餐馆 、 娱 乐 、 家 装 等 行业 都 有 很 全 面 的 覆盖 。 由 于 大 量 商家 的 成 败 都 取决 于 Yelp， 因 此 市 场 上 出 现 了 冒充 消费 者 进行 刷 点 的 评论 师 。 评 论 师 会 
按照 商家 的 要 求 对 商户 进行 不 公正 的 点 评 ， 从 而 对 消费 者 产生 误导 。Yelp 意 识 到 了 这 样 的 问题 ， 并 且 建 立 了 机 器 学 习 模型 进行 自动 化 侦 测 。 但 可 能 是 建 模 数据 出 现 了 问题 (比如 ， 建 模 的 时 候 使 用 了 评论 师 
的 数据 ) ， 因 此 生成 的 模型 并 没有 阻挡 评论 师 的 进攻 ， 真 正 的 用 户 所 产生 的 评论 反而 会 被 屏蔽 掉 ， 用 户 体验 大 打折 扣 。 









































































































































通过 这 样 的 案例 ， 我 们 可 以 意识 到 基本 数据 采集 对 机 器 学 习 模型 的 重要 性 。 如 果 数 据 出 现 了 问题 ， 那 么 后 面 的 模型 、 架 构 再 强大 也 没有 办 法 产生 效益 。 
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机 器 学 习 是 一 门 科学 ， 它 旨 在 让 计算 机 自主 化 工作 ， 而 不 需要 刻意 编程 。 





而 从 统计 和 数据 分 析 的 角度 出 发 ， 世 界 领先 的 统计 软件 公司 SAS 对 机 器 学 习 的 定义 是 : 


机 器 学 习 是 一 种 方法 ， 它 旨 在 用 数据 分 析 自 动 化 模型 的 建立 。 








笔者 个 人 从 学 术 和 工业 界 应 用 的 角度 出 发 ， 认 为 机 器 学 习 的 定义 应 该 包括 以 下 三 个 方面 。 

















“ 用 数据 说 话 : 在 常规 计算 机 编程 中 ， 所 有 的 逻辑 都 是 人 为 设 定 的 。 而 机 器 学 习 方 法 是 试图 让 观测 到 的 数据 和 现象 成 为 编撰 逻辑 的 依据 ， 不 同 模型 之 间 的 衡量 标准 也 试图 尽量 达到 标准 化 ， 以 使 得 人 为 
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“ 高度 自动 化 : 机 器 学 习 模型 往往 会 在 工业 应 用 中 不 断 重 复 更 新 ， 所 以 机 器 学 习 建 模 生存 期 中 的 每 个 步骤 往往 都 是 可 以 高 度 自动 化 的 。 
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在 工业 应 用 中 ， 上 面 这 三 点 的 重要 性 总 是 在 不 断 得 到 印证 。 下 面 就 通过 两 个 应 用 中 的 有 名 案例 来 体会 一 下 。 
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Yelp 类 似 于 国内 的 大 众 点 评 网 ， 其 内 容 多 为 用 户 生成 ， 对 餐馆 、 娱 乐 、 家 装 等 行业 都 有 很 全 面 的 覆盖 。 由 于 大 量 商家 的 成 败 都 取决 于 Yelp， 因 此 市 场 上 出 现 了 冒充 消费 者 进行 刷 点 的 评论 师 。 评 论 师 会 
按照 商家 的 要 求 对 商户 进行 不 公正 的 点 评 ， 从 而 对 消费 者 产生 误导 。Yelp 意 识 到 了 这 样 的 问题 ， 并 且 建 立 了 机 器 学 习 模型 进行 自动 化 侦 测 。 但 可 能 是 建 模 数据 出 现 了 问题 (比如 ， 建 模 的 时 候 使 用 了 评论 师 
的 数据 ) ， 因 此 生成 的 模型 并 没有 阻挡 评论 师 的 进攻 ， 真 正 的 用 户 所 产生 的 评论 反而 会 被 屏蔽 掉 ， 用 户 体验 大 打折 扣 。 

































































































































































通过 这 样 的 案例 ， 我 们 可 以 意识 到 基本 数据 采集 对 机 器 学 习 模型 的 重要 性 。 如 果 数 据 出 现 了 问题 ， 那 么 后 面 的 模型 、 架 构 再 强大 也 没有 办 法 产生 效益 。 








1.2 ”机 器 学 习 发 展 的 前 世 今 生 


1.2.1 ”历史 上 机 器 学 习 无 法 调和 的 难题 























早 在 2011 年 ， 笔 者 之 一 彭 河 森 正在 谷歌 总 部 实习 的 时 候 ， 机 器 学 习 的 应 用 还 主要 集中 在 几 个 互联 网 巨头 手 里 。 当 时 ， 机 器 学 习 的 大 规模 应 用 存在 以 下 三 个 方面 的 限制 。 





























1. 运 维 工 具 欠 缺 









































就 拿 灵 活 开 发 流程 来 说 吧 ， 早 在 2011 年 ， 谷 歌 、 亚 马 逊 等 公司 开发 了 内 部 自 有 的 协同 部 署 工具 ， 而 开源 协同 部 署 工具 Jenkins 才 刚刚 起 步 ， 不 少 公司 对 服务 器 集群 的 管理 还 停留 在 rsync 和 ssh 脚 本 阶段 。 
机 器 学 习 的 应 用 往往 需要 多 台 服 务 器 各 司 其 职 、 协 同 作业 ， 这 也 增加 了 机 器 学 习 开 发 、 部 署 的 难度 。 这 也 解释 了 为 什么 早期 的 机 器 学 习 软件 包 (如 Weka 等 ) 都 是 单机 版 的 ， 因 为 服务 器 配置 真 的 是 太 麻烦 
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一 个 机 器 学 习 系 统 的 上 线 运行 ， 需 要 前 端 、 后 端 多 个 组 成 部 分 协调 工作 。 在 缺乏 运 维 工具 的 年 代 ， 这 样 的 工作 量 会 大 得 惊人 。 人 力 物 力 的 超 高 成 本 投入 ， 有 限 而 且 不 确定 的 回报 率 ， 这 些 都 让 机 器 学 习 
从 业 人 员 在 实际 应 用 中 难以 生存 。 另 外 一 些 机 器 学 习 专 用 工具 (如 Hadoop) 在 早年 是 很 少 有 人 懂得 其 部 署 步骤 的 ， 一 般 的 工程 师 都 不 愿意 去 主动 接触 它 。 在 这 种 情况 下 ， 两 位 笔者 都 曾经 为 自己 的 部 门 搭 
建 过 Hadoop 平 台 。 


































































































2. 模 型 尚未 标准 化 















































在 2011 年 ， 机 器 学 习 模型 仍然 是 门派 林立 ，SVM、 神 经 网 络 等 大 家 之 作 往 往 需要 与 作者 直接 书写 的 libsvm 等 软件 库 相对 应 ， 而 统一 标准 化 语言 的 软件 包 才 刚刚 出 现 。 当 时 已 经 有 很 多 线性 模型 的 软件 
包 ， 但 是 如 果 需 要 使 用 随机 森林 ， 那 么 还 需要 再 安装 其 他 软件 包 ， 不 同 软件 包 的 用 法 又 是 不 一 样 的。 这 样 的 非 标准 化 工作 大 大 加 重 了 开发 的 工作 量 ， 减 缓 了 工作 的 进度 。 






























































机 器 学 习 软 件 行业 这 种 “军阀 割据 ”的 格局 ， 导 致 机 器 学 习 从 业 人 员 必 须 对 每 个 对 应 的 模型 都 要 进行 二 次 开发 。 理 论 上 来 说 ， 再 好 的 机 器 学 习 模型 ， 在 实际 系统 里 面 ， 其 地 位 也 就 应 该 是 一 个 可 以 随时 
替换 的 小 插件 。 可 是 实际 上 ， 由 于 二 次 开发 ， 往 往 导 致 一 个 模型 很 难 蔡 代 和 更 新 ， 只 能 与 系统 黏 在 一 起 。 




















3. 全 栈 人 才 欠 缺 








如 果 有 了 足够 多 的 全 栈 人 才 ， 那 么 上 面 的 挑战 就 都 不 是 问题 了 。 可 是 由 于 机 器 学 习 的 门槛 比较 高 ， 往 往 需要 拥有 多 年 理论 训练 的 人 才能 胜任 相关 工作 。 如 果 没 有 多 年 的 工作 经 验 ， 那 么 这 样 的 人 员 往 往 
对 系统 运 维 等 工作 一 穿 不 通 。 找 到 懂 机 器 学 习 的 人 容易 ， 找 到 懂 系 统 运 维 的 人 也 不 难 ， 可 是 要 找到 两 样 都 会 的 人 就 非常 困难 了 ， 这 样 的 情况 直接 导致 全 栈 人 才 极 度 缺 乏 。 如 果 大 家 有 幸 能 够 供职 于 一 些 积累 
了 多 年 机 器 学 习 实战 经 验 的 大 公司 ， 对 机 器 学 习 系 统 架构 进行 “考古 ”， 就 会 发 现 这 个 公司 的 机 器 学 习 系 统 架 构 设计 大 多 取决 于 该 公司 架构 人 员 的 学 历 背景 ， 每 个 公司 在 重 模型 还 是 重 架 构 方面 都 有 自己 的 
倾向 性 。 










































































1.2.2 ”现代 机 器 学 习 的 新 融合 























上 面 三 个 问题 在 2012 年 得 到 了 转变 ， 而 这 一 年 ， 也 是 两 位 笔者 在 亚马逊 公司 相遇 的 年 份 。 能 站 在 机 器 学 习 应 用 的 前 线 ， 目 睹 这 一 革命 的 发 生 ， 我 们 感到 非常 欣喜 。 我 们 有 幸 成 为 这 个 大 潮 中 的 第 一 批 
户 ， 而 且 通 过 实际 经 历 ， 了 解 了 这 一 变化 的 来 龙 去 脉 。 经 过 这 几 年 的 历练 ， 我 们 熟悉 了 机 器 学 习 架 构 应 用 的 相关 知识 。 更 重要 的 是 ， 我 们 通过 广泛 的 实验 和 讨论 ， 总 结 出 了 对 机 器 学 习 架 构 各 个 组 成 部 分 进 
行 选择 、 预 判 的 规律 ， 让 我 们 可 以 通过 关键 点 分 析 对 机 器 学 习 的 浪潮 进行 预测 评估 。 这 也 是 我 们 希望 能 够 通过 本 书 与 大 家 进行 分 享 的 经 验 。 

























































































从 2012 年 到 2016 年 ， 机 器 学 习 领 域 主要 发 生 了 以 下 这 些 变化 。 


























1. 轻 量化 运 维 工具 成 为 主流 




















运 维 过 于 复杂 ， 已 经 成 为 众多 互联 网 企业 的 心头 之 患 。 这 个 痛 点 在 2012 年 到 2016 年 这 几 年 之 间 得 到 了 革命 性 的 解决 ， 其 中 一 马 当先 的 急 先锋 是 Docker，Docker 是 一 款 轻 量化 容器 虚拟 机 生态 系统 (本 
书 的 第 6 章 会 详细 介绍 Docker， 并 且 其 应 用 实例 也 会 贯穿 全 书 ) 。 在 Docker 出 现 以 前 ， 调 试 部 署 的 工作 往往 会 占用 开发 人 员 大 量 的 时 间 ， 例 如 在 开发 人 员 电脑 上 能 够 成 功 运行 的 程序 ， 部 署 好 了 之 后 却 不 能 
正常 运行 。Docker 的 出 现 ， 使 得 开发 人 员 电 脑 上 和 生产 服务 器 上 面 的 虚拟 机 镜像 内 容 完全 相同 ， 从 而 彻底 杜绝 了 这 种 悲剧 的 发 生 ， 大 大 缩短 了 开发 部 署 的 周期 。 































































































与 此 同时 ， 新 近 出 现 的 连续 化 部 署 (Continuous Integration，Cl) 工具 ， 如 Jenkins， 自 动 化 了 机 器 学 习 模 型 的 训练 和 部 署 流程 ， 大 大 提高 了 模型 训练 的 效率 。 

















2. 机 器 学 习 工具 标准 化 























近 几 年 机 器 学 习 软 件 的 出 现 仍然 呈现 爆炸 式 增长 的 趋势 ， 但 是 领军 软件 已 经 狐 露 头角 。 在 单机 机 器 学 习 处 理 方面 ， 基 于 Python 的 Scikit-learn 工 具 已 经 成 为 了 监督 式 机 器 学 习 模型 的 主流 。Scikit-learn 
有 丰富 的 机 器 学 习 模型 模块 ， 并 且 非 常 易 于 进行 系统 整合 ， 我 们 在 本 书 的 第 4 章 将 对 其 进行 详细 介绍 。 与 此 同时 ， 大 数据 机 器 学 习 方面 ，Spark 和 MLLib 也 成 为 了 主流 ，MLLib 几 乎 涵盖 了 所 有 的 主流 分 布 
式 机 器 学 习 模块 ， 并 且 非 常 易 于 扩展 。 这 些 新 工具 的 出 现 ， 让 开发 人 员 不 再 需要 对 模型 进行 二 次 开发 ， 从 而 大 大 提高 了 效率 。 




























































































3. 全 栈 人 才 登 上 历史 舞台 


机 器 学 习 领 域 人 才 大 战 正 柄 ， 吸 引 了 众多 优质 青年 投身 于 这 一 领域 。 我 们 非常 欣喜 地 看 到 众多 全 栈 型 人 才 的 出 现 。 所 谓 全 栈 型 人 才 ， 即 为 上 可 建 模型 、 调 参数 ， 下 可 搭 集群 、 做 部 署 ， 左 可 开讲 座 、 熬 
鸡汤 ， 右 可 面 风 投 、 拉 项 目的 “多 才 多 艺 ” 型 人 才 。 全 栈 型 人 才 在 组 织 中 可 以 起 到 掌控 技术 全 局 的 作用 ， 可 以 大 大 缩短 开发 所 需要 的 时 间 ， 减 少 系统 反复 修改 带 来 的 浪费 。 












































1.3 机 器 学 习 领 域 分 类 


从 方法 论 的 角度 来 讲 ， 机 器 学 习 分 为 监督 式 学 习 、 非 监督 式 学 习 和 新 兴 机 器 学 习 课 题 三 大 方面 。 





1 监督 式 学 习 























监督 式 机 器 学 习 的 主要 任务 是 通过 机 器 学 习 模型 和 已 有 信息 ， 对 感 兴趣 的 变量 进行 预测 ， 或 者 对 相关 对 象 进行 分 类 。 监 督 式 机 器 学 习 的 一 些 应 用 场景 包括 : 对 网 页 访问 进行 分 类 ， 通 过 声音 、 文 字 、 表 
情 等 信息 对 用 户 心情 进行 判断 ， 对 天 气 进行 预测 等 。 常 用 的 监督 式 机 器 学 习 方 法 包括 线性 模型 、 最 近邻 估计 、 神 经 网 络 、 决 策 树 等 。 最 近 特 别 火热 的 深度 学 习 在 图 像 分 类 等 场景 的 应 用 也 是 监督 式 学 习 的 一 
种 。 











































































































2. 非 监督 式 学 习 





























非 监督 式 学 习 的 主要 任务 是 对 数据 进行 描述 。 在 非 监督 式 学 习 的 应 用 场景 中 ， 所 有 变量 几乎 都 处 于 同等 地 位 ， 不 存在 一 个 需要 进行 预测 和 分 类 的 目标 。 故 此 非 监督 式 学 习 主要 用 于 机 器 学 习 建 模 前 期 对 
数据 的 分 析 和 可 视 化 处 理 ， 其 在 生产 环境 中 的 应 用 较 少 。 非 监督 式 学 习 的 主要 方法 包括 聚 类 分 析 、 隐 含 因子 分 析 等 。 




































































3. 新 兴 的 机 器 学 习 课题 











最 近 五 年 ， 强 化 学 习 (reinforcement learning) 领域 在 深度 学 习 的 带领 下 得 到 了 飞速 的 发 展 。 强 化 学 习 旨 在 通过 对 实际 事件 的 观察 得 到 行为 优化 的 结论 ， 例 如 ，AlphaGo 通 过 强化 学 习 优化 下 围棋 的 
策略 。 到 目前 为 止 ， 强 化 学 习 暂时 还 主要 停留 在 学 院 派 研究 中 ， 实 际 应 用 暂时 有 限 。 
















































































本 书 将 着 重 讲 述 机 器 学 习 方法 在 实时 场景 中 的 应 用 ， 我 们 将 会 简要 介绍 主流 监督 式 学 习 的 方法 和 应 用 。 另 外 值得 一 提 的 是 ， 在 IT 工业 界 应 用 中 ， 自 然 语义 处 理 、 推 荐 系统 和 搜索 引擎 由 于 其 专业 领域 深 
度 和 应 用 的 难度 ， 在 各 种 文献 中 它们 往往 被 列 为 独立 的 大 方向 。 本 书 的 第 9 章 和 第 12 章 会 对 自然 语言 的 处 理 进行 简单 的 介绍 。 

































































14 实时 是 个 “万 灵 丹 ” 


成 长 会 解决 一 切 问题 。 如 果 一 个 企业 正在 飞速 成 长 ， 大 家 步调 一 致 、 同 心 齐 力 ， 那 么 内 斗 或 管理 混乱 等 问题 将 是 难以 出 现 的。 而 当 企业 的 成 长 受到 了 制约 ， 停 滞 不 前 的 时 候 ， 往 往 就 会 出 现 众多 非 技术 
性 原因 造成 的 悲剧 。 



































我 们 强调 机 器 学 习 的 实时 性 ， 就 是 为 了 保证 应 用 机 器 学 习 的 企业 能 够 利用 机 器 学 习 的 资源 大 踏步 向 前 ， 而 不 会 被 早早 地 制约 ， 徘 徊 不 前 。 机 器 学 习 就 已 经 够 有 挑战 性 的 了 ， 为 什么 还 要 采用 实时 机 器 学 
习 ? 根据 我 们 的 经 验 ， 实 时 机 器 学 习 上 马 应 该 越 早 越 好 ， 原 因 具 体 有 以 下 三 点 。 


















































1. 实 时 架构 稳定 性 可 以 得 到 保证 

















Fail fast (快速 失败 ) 强调 如 果 有 问题 ， 那 么 应 让 问题 尽早 出 现 ， 使 得 问题 可 以 得 到 尽早 修复 ， 这 是 软件 工程 里 面 一 个 重要 的 思想 。 如 果 系 统 有 问题 ， 就 应 该 让 问题 尽早 暴露 ， 而 不 是 往 后 拖 。 实 时 机 
器 学 习 架 构 强调 连续 运行 ， 设 计 、 实 施 中 的 任何 问题 一 般 都 可 以 在 部 署 上 线 后 的 几 个 小 时 内 暴露 出 来 ， 以 及 时 得 到 更 正 。 














非 实时 架构 往往 会 在 每 天 的 某 一 个 固定 时 刻 进行 数据 处 理 、 建 模 等 工作 。 如 果 前 一 天 开发 人 员 部 署 了 问题 程序 ， 到 了 第 二 天 运行 的 时 候 才 发 现 ， 打 好 补丁 就 到 了 第 三 天 ， 然 后 验证 补丁 是 否 正确 又 到 了 
第 四 天 .…… 在 流程 的 反复 中 ， 宝 贵 的 时 间 就 这 样 浪费 下 去 了 。 























2. 人 代码、 架构 质量 可 以 得 到 保证 











与 非 实时 架构 不 同 ， 实 时 架构 设计 假设 数据 是 无 限量 连续 到 来 的 。 这 时 候 系统 的 设计 和 开发 必须 从 一 开始 就 设计 好 全 局 步骤 ， 而 不 是 走 一 步 算 一 步 ， 由 此 可 以 大 大 提高 架构 设计 的 质量 。 与 此 同时 ， 连 
续 交 付 的 要 求 需要 代码 能 够 事先 考虑 到 所 有 边际 情况 ， 这 样 我 们 所 得 到 的 代码 质量 也 会 更 高 。 














3 数据 驱动 的 组 织 文化 可 以 得 到 加 强 



































由 于 机 器 学 习 具 有 实时 性 ， 因 此 所 有 有 关 业 务 效果 的 讨论 都 可 以 基于 实时 数据 ， 而 不 是 赁 空 根据 大 佬 的 主观 腾 断 。 与 此 相对 的 ， 没 有 采用 实时 机 器 学 习 的 组 织 往往 只 会 定期 手动 进行 数据 分 析 ， 得 到 真 
相 的 速度 大 大 减 慢 ， 不 利于 商业 决策 的 正确 执行 。 另 外 ， 非 实时 架构 企业 的 数据 处 理 往往 会 经 过 相关 人 员 之 手 ， 数 据 的 原始 性 和 真实 性 很 难得 到 保证 ， 最 终 用 户 拿 到 数据 的 时 候 ， 数 据 可 能 已 经 失去 了 使 
的 价值 。 



























































1.5 “实时 机 器 学 习 的 分 类 











按照 实际 应 用 中 采用 的 方式 不 同 ， 实 时 机 器 学 习 可 以 分 为 硬 实时 、 软 实时 和 批 实时 三 种 模式 ， 下 面 将 分 别 进行 介绍 。 























1.5.1 硬 实 时 机 器 学 习 



































局 








硬 实时 的 定义 是 : 响应 系统 在 接收 到 请 求 之 后 ， 能 够 马上 对 请 求 进行 响应 反馈 ， 做 出 处 理 。 硬 实时 机 器 学 习 的 主要 应 用 场景 是 网 页 浏览 、 在 线 游戏 、 高 频 交 易 等 对 时 效 性 要 求 非常 高 的 领域 。 在 这 些 领 
域 中 ， 我 们 往往 需要 将 相应 延迟 控制 在 若干 毫秒 以 下 。 对 于 高 频 交 易 等 场景 ， 更 是 有 不 少 计算 机 软件 、 硬 件 专家 ， 开 发 出 了 各 种 专 有 模块 以 在 更 短 的 时 间 内 完成 交易 ， 获 得 超额 利润 。 



































在 本 书写 作 之 时 ， 计 算 机 网 络 的 传输 速度 仍然 是 响应 延迟 的 一 大 主要 因素 。 硬 实时 机 器 学 习 的 响应 架构 往往 会 试图 尽量 减少 请 求 处 理 过 程 中 的 网 络 传输 步骤 。 与 此 同时 ， 为 了 达到 硬 实时 的 要 求 ， 在 请 
求 突然 增加 的 时 候 ， 往 往 会 采取 负载 均衡 的 方法 ， 靠 增加 服务 器 的 数量 来 减少 响应 延迟 。 




















1.5.2” 软 实时 机 器 学 习 











软 实时 的 定义 是 : 响应 系统 在 接收 到 请 求 的 时 候 ， 立 即 开始 对 响应 进行 处 理 ， 并 且 在 较 短 时 间 内 进行 反馈 。 软 实时 机 器 学 习 只 要 求 系统 立即 对 请 求 开始 进行 处 理 ， 最 后 处 理 完成 所 消耗 的 时 间 比 较 少 ， 



































但 是 要 求 不 如 硬 实时 严格 。 软 实时 机 器 学 习 的 主要 应 用 场景 是 物流 运输 、 较 为 频繁 的 数量 金融 交易 等 领域 。 例 如 某 物 流 企业 在 接 到 订单 之 后 需要 对 运输 时 间 、 物 品 风险 进行 预 估 ， 其 中 需要 和 多 个 系统 服务 
进行 交互 读 取 ， 这 个 时 候 我 们 需要 系统 能 够 实时 地 做 出 处 理 ， 但 是 处 理 结果 可 能 需要 经 过 数秒 才能 得 到 。 











由 于 软 实时 机 器 学 习 对 响应 延迟 的 要 求 有 所 放松 ， 因 此 往往 会 在 处 理 架构 中 加 入 分 布 式 队列 这 一 组 成 部 件 。 处 理 的 任务 会 被 实时 地 传输 到 分 布 式 队列 中 ， 而 后 端的 处 理 程序 能 响应 式 地 对 任务 进行 处 
理 。 与 此 同时 ， 在 请 求 增加 的 时 候 ， 可 以 通过 分 布 式 队列 缓冲 到 达 的 任务 ， 也 可 以 通过 负载 均衡 的 方法 增加 处 理 单 元 ， 以 保证 低 延迟 。 











1.5.3 ” 批 实 时 机 器 学 习 



































硬 实时 机 器 学 习 和 软 实时 机 器 学 习 都 是 针对 具体 的 单个 事件 进行 处 理 。 与 此 相对 应 的 ， 批 实时 机 器 学 习 是 指 对 成 批 到 达 的 数据 进行 实时 的 处 理 。 批 实时 机 器 学 习 的 应 用 场景 往往 处 于 后 端 机 器 学 习 模 型 
的 训练 和 数据 处 理 加 工 上 。 通 过 实时 训练 的 模型 将 会 被 部 署 到 硬 、 软 实时 机 器 学 习 架 构 中 ， 对 数据 进行 处 理 。 
































由 于 批 实时 机 器 学 习 需要 对 一 定时 间 窗 口内 的 所 有 数据 进行 处 理 ， 因 此 批 实时 机 器 学 习 架 构 中 往往 也 会 有 一 个 分 布 式 队 列 ， 对 时 间 窗 口内 的 数据 进行 缓冲 和 加 工 。 在 数据 流向 增加 的 时 候 ， 可 以 通过 加 
大 分 布 式 队列 的 容量 ， 提 高 分 布 式 队列 的 处 理 能 力 ; 也 可 以 通过 增加 处 理 单元 的 方法 来 提高 处 理 能 力 ， 以 保证 低 延迟 。 














1.6 ”实时 应 用 对 机 器 学 习 的 要 求 























现今 每 年 都 会 发 表 成 干 上 万 的 机 器 学 习 相 关 的 论文 ， 其 中 不 乏 表 现 突出 的 方法 论 ， 但 是 并 不 是 所 有 的 机 器 学 习 模 型 在 实际 应 用 中 都 适用 。 实 时 机 器 学 习 的 应 用 主要 有 以 下 几 个 方面 的 要 求 。 






































1. 模 型 可 扩展 性 
































模型 可 扩展 性 需要 整个 机 器 学 习 应 用 的 各 个 部 分 均 可 以 轻易 地 根据 实际 需要 进行 扩展 。 这 里 的 扩展 可 能 是 增加 新 的 预测 变量 ， 也 可 能 是 在 新 的 市 场 、 人 群 和 用 户 界面 中 进行 使 用 ， 还 有 可 能 是 加 入 新 的 
架构 部 件 ， 进 行 可 视 化 等 操作 。 



































2. 模 型 运用 低 延 迟 性 






































低 延 迟 性 是 实时 机 器 学 习 应 用 区 别 于 其 他 机 器 学 习 应 用 的 核心 。 根 据 定 的 义 的 不 同 ， 低 延迟 的 界定 也 会 有 所 不 同 。 对 于 网 页 、 交 互 式 游戏 等 应 用 场景 ， 低 延迟 需要 整个 机 器 学 习 后 台 在 少 于 10 个 微 秒 内 
完成 反应 ; 与 此 相对 应 的 是 ， 对 于 后 台数 据 分 析 、 作 弊 检 测 等 场景 ， 低 延迟 要 求 整个 机 器 学 习 后 台 能 在 少 于 一 分 钟 内 完成 作业 即 可 。 















































3. 训 | 练 数据 私密 性 




















训练 数据 私密 性 是 指 ， 模 型 的 用 户 能 否 通 过 逆向 工程 的 办 法 ， 倒 推出 模型 训练 数据 集 的 内 容 。 如 果 训 练 数 据 集 的 内 容 可 以 被 轻松 倒 推出 来 ， 那 么 可 能 会 对 训练 集 数据 提供 者 的 隐私 和 经 济 利益 带 来 负面 
影响 。 这 是 近 几 年 刚 被 机 器 学 习 业 界 意识 到 的 一 个 重要 问题 。 

















1.7 案例 : Netflix 在 机 器 学 习 竞 赛 中 学 到 的 经 验 














美国 领先 的 付费 视频 公司 Netflix 在 机 器 学 习 、 系 统 推荐 方面 都 做 出 了 卓越 的 贡献 ， 早 在 2007 年 ，Netflix 就 率先 提出 了 百 万 美元 大 奖 ， 奖 励 在 Netflix Prize 竞 赛 中 优胜 的 队伍 。 Netflix Prize 通 过 为 期 三 
F 的 竞赛 ， 积 累 了 机 器 学 习 宝 贵 的 第 一 手 资料 ， 成 为 了 机 器 学 习 中 的 经 典 案例 ， 这 里 我 们 介绍 以 下 两 个 方面 。 
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1.7.1 Netflix 用 户 信息 被 逆向 工程 














Netflix Prize 进 行 影片 推荐 预测 时 ， 使 用 的 数据 包括 用 户 名 、 影 片 名 、 评 价 日 期 、 评 价 等 级 等 信息 ， 为 了 防止 泄露 用 户 个 人 的 隐私 信息 ，Netflix 对 用 户 名 进行 了 加 密 处 理 。 















































尽管 如 此 ， 德 州 大 学 的 研究 人 员 仍然 通过 逆向 工程 成 功 得 到 了 一 些 用 户 的 个 人 信息 。 他 们 是 怎么 做 到 的 呢 ? 原来 Netflix 用 户 在 评价 一 个 影片 的 时 候 ， 往 往 还 会 去 互联 网 影片 库 IMDB 上 转载 自己 的 评 
论 。 德 州 大 学 的 研究 人 员 将 Netflix 数 据 集中 的 评论 和 IMDB 中 的 评论 按照 评论 日 期 进行 配对 ， 很 快 就 发 现 了 具有 上 面 行为 的 若干 用 户 ， 其 中 不 乏 具有 隐秘 性 取向 的 用 户 。 这 一 研究 结果 一 经 发 出 之 后 ， 这 些 
户 的 生命 安全 直接 受到 了 威胁 ， 这 也 直接 导致 了 Netflix 在 2010 年 遭 到 了 以 上 用 户 的 起 诉 ， 并 且 取 消 了 2010 年 以 后 的 所 有 竞赛 。 





































































































































































































通过 这 一 案例 ， 我 们 意识 到 了 在 设计 机 器 学 习 应 用 的 时 候 一 定 要 把 用 户 隐私 保护 放 在 第 一 位 。 一 些 社会 边缘 个 体 特别 容易 因为 自己 的 行为 特征 与 大 众 不 同 而 被 模型 泄露 。 



































1.7.2 ”Netflix 最 终 胜出 者 模型 无 法 在 生产 环境 中 使 用 














2009 年 Netflix 最 终 胜出 的 队伍 为 BellKor， 该 队伍 是 由 四 个 队伍 混合 而 成 的 。 为 什么 要 混合 队伍 呢 ? 笔者 曾 有 幸 亲 自 向 BellKor 成 员 之 一 的 Michael Jahrer 请 教 。 故 事 是 这 样 的 ， 在 比赛 进行 到 了 白热化 
阶段 之 后 ， 来 自 雅 虎 、 贝 尔 实验 室 、Commendo Research and Consulting 和 Pragmatic Theory 这 四 个 队伍 得 到 的 结果 都 不 相 上 下 ， 这 个 时 候 ， 往 往 要 在 进行 大 量 的 参数 调 校 后 ， 模 型 才 会 有 很 少 一 点 的 
提升 。 



























































2009 年 的 时 候 ， 机 器 学 习 领 域 已 经 出 现 了 Emsemble 的 概念 。Emsemble 的 意思 是 通过 混搭 来 源 不 同 的 模型 的 结果 ， 取 长 补 短 ， 以 得 到 更 为 强大 的 模型 。 很 自然 的 ， 上 面 这 四 支队 伍 先后 决定 合并 成 为 
一 个 大 集体 ， 最 后 取得 了 Netflix 比 赛 的 最 终 胜 利 。 

































































比赛 确实 是 结束 了 ， 运 用 Emsemble 过 程 带 来 的 负面 影响 是 ， 最 终 模 型 是 由 上 百 个 小 模型 组 成 的 ， 每 个 小 模型 都 可 能 是 由 不 同 的 语言 来 写成 的 ， 需 要 自己 特殊 的 预 处 理 程序 ， 而 且 还 需要 独立 的 模型 训 
练 架构 。 虽 然 按照 约定 ，Netflix 享 有 最 终 模型 的 使 用 权 ， 但 是 实际 上 由 于 训练 和 运用 模型 的 复杂 性 ，Netflix 至 今 也 没有 将 上 述 模 型 运用 到 实际 应 用 中 去 。 



































































































































通过 这 一 案例 ， 我 们 可 以 学 到 ， 先 进 、 前 沿 的 机 器 学 习 模型 固然 很 重要 ， 得 在 运用 的 时 候 仍 然 要 考虑 到 训练 、 运 用 的 复杂 性 。 一 切 从 实际 出 发 ， 也 是 本 书 全 文 的 贯穿 思想 。 


























1.8 ”实时 机 器 学 习 模型 的 生存 期 




















进行 实时 机 器 学 习 开发 必须 考虑 生存 期 。 生 存 期 是 指 一 个 系统 从 提出 、 设 计 、 开 发 、 测 试 到 部 署 运用 、 维 护 、 更 新 升级 或 退役 的 整个 过 程 。 若 在 生存 期 设计 上 出 现 了 数据 ， 那 么 在 后 面 的 使 用 中 就 会 出 
现 各 种 各 样 的 瓶颈 阻碍 应 用 产生 价值 。 
























































从 软件 工程 的 角度 上 讲 ， 开 发 实时 机 器 学 习 也 遵从 构思 、 分 析 、 设 计 、 实 现 和 维护 五 个 步骤 ， 这 五 个 步骤 可 能 会 循环 往复 ， 随 着 业务 的 发 展 进行 多 次 迭代 。 实 时 机 器 学 习 模型 的 应 用 由 于 其 技术 的 特殊 
性 ， 也 具有 自己 的 小 型 生存 期 ， 其 中 包括 数据 收集 、 数 据 分 析 、 离 线 手工 建 模 评测 、 上 线 自动 化 建 模 评测 这 四 个 方面 。 如 图 1-1 所 示 ， 离 线 手工 建 模 评测 、 上 线 自动 化 建 模 评测 这 两 个 部 分 主要 是 靠 监 督 式 机 




















习 





























器 学 习 。 而 数据 分 析 主 要 是 依靠 非 监督 式 机 器 学 习 和 统计 数据 分 析 。 





数据 分 析 


非 监 督 式 机 响 学 习 


让 
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监督 式 机 顺和 学 习 


线 下 进行 建 模 评估 


图 1-1 





基本 统计 量 分 析 


聚 类 ， 主 成 分 分 析 等 


F 线 自动 化 建 模 评 佑 






















实时 机 器 学 习 模 型 的 生存 期 





值得 一 提 的 是 ， 进 行 上 面 这 四 个 步骤 的 前 提 是 机 器 学 习 模型 能 够 给 组 织 和 用 户 带 来 价值 。 但 是 ， 众 多 开发 人 员 甚至 是 领导 层 都 不 愿意 面 对 的 一 个 




















对 于 一 些 非 机 器 学 习 大 数据 类 的 初创 公司 来 说 ， 在 用 户 数量 并 不 太 多 的 情况 下 ， 





















































| 让 
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问题 是 : 我 的 模型 真 的 有 用 吗 ? 














非 监 督 式 机 器 学 习 进 行 少量 数据 分 析 ， 然 后 用 人 力 进行 反馈 ， 
得 知 国内 一 些 门 户 视频 网 站 ， 就 算 在 公司 都 已 经 上 市 之 后 ， 仍 然 还 在 使 用 人 工 选择 的 方式 进行 视频 推介 ， 甚 至 还 取得 了 尚 可 的 效果 。 





如 果 机 器 学 习 不 能 给 组 织带 来 直接 效果 ， 就 算 有 高 层 支 持 ， 对 于 机 器 学 习 从 业 人 员 来 说 也 不 是 很 好 的 职业 选择 。 在 机 器 学 习 能 为 组 织带 来 效益 的 








而 有 可 能 会 取得 更 优良 的 投资 回报 率 。 笔 者 道听途说 








情况 下 ， 让 数据 说 话 ， 从 业 人 员 才 能 够 不 断 进 行 深 挖 ， 


并 得 到 更 多 的 锻炼 和 领域 洞 见 ; 与 此 相反 ， 如 果 所 建立 的 系统 听 起 来 很 好 ， 但 是 却 没 能 带 来 相对 应 的 效益 ， 那 么 这 样 岗位 上 从 业 人 员 的 工作 重心 就 会 像 浮 萍 一 样 随波逐流 ， 被 公司 政治 利益 驱动 ， 长 期 来 说 


这 样 很 不 利于 从 业 人 员 的 个 人 发 展 。 








山 | 























在 下 面 的 章节 里 ， 我 们 将 会 从 更 实际 的 角度 出 发 来 探索 实时 机 器 学 习 的 应 用 。 其 中 ， 











第 2 章 到 第 4 


， 我 们 将 : 


会 介 


我 们 将 会 介绍 实时 机 器 学 习 的 架构 ， 并 且 学 习 使 用 Docker、RabbitMQ、Elasticsearch 及 数据 库 等 重要 组 成 部 分 。 








机 器 学 习 实战 的 最 高 境界 ， 就 是 知行 合 一， 在 创造 科技 前 沿 作品 的 同时 ， 能 够 为 个 人 、 组 织 和 社会 带 来 效益 ， 这 也 是 本 书写 作 的 指导 思想 。 





绍 监督 式 机 器 学 习 模型 ， 并 且 学 习 建 模 的 工具 Pandas 和 Scikit-learn; 第 6 章 到 第 9 章 ， 


第 2 章 ”实时 监督 式 机 器 学 习 


2 二 


当 的 


知 。 


什么 是 监督 式 机 器 学 习 








监督 式 机 器 学 习 旨 在 利用 训练 集 数 据 ， 






































建立 因 变量 和 自 变 量 之 问 的 函数 映射 关系 。 如 果 用 X 代 表 自 变量 ，Y 代 表 因 变量 ，f 代 表 上 映射 函数 ，b 代 表 映 射 函 数 的 参数 ， 那 么 监督 式 机 器 学 习 的 任务 就 是 找到 恰 




































































函数 f 和 参数， 让 下 面 的 映射 尽量 符合 要 求 : 








这 里 e 为 实际 情况 中 的 随机 扰动 项 。 





ff (Xx;b,e) 


下 面 就 来 具体 看 看 在 监督 式 机 器 学 习 中 ， 因 变量 、 自 变量 和 预测 函数 的 含义 。 





(1) 因 变 量 















































变量 是 我 们 试图 通过 机 器 学 习 模型 预测 的 变量 ， 在 实际 应 用 中 它 往往 无 法 在 预测 之 时 就 能 观测 到 。 例 如 在 实时 股价 波动 方向 预测 中 ， 未 来 股价 的 走向 就 是 一 个 因 变 量 ， 只 有 等 待 时 间 流 逝 之 后 才能 得 






























































我 们 进行 预测 时 只 能 根据 当前 已 有 的 历史 交易 数据 、 基 本 面 信息 等 进行 判断 。 这 个 时 候 就 需要 利用 已 有 的 变量 对 这 一 因 变 量 进行 预测 。 对 于 不 同 的 应 用 场景 ， 因 变量 可 以 是 金额 、 收 入 等 连续 变量 ， 也 


















































可 以 是 性 别 、 状 态 等 离散 变量 ， 还 可 以 是 








围 、 经 纬度 等 多 维 变量 。 











(2) 自 变 量 





变量 是 我 们 在 预测 时 就 已 经 获得 的 ， 








可 以 用 于 因 变 量 预 测 的 数据 。 例 如 在 实时 股价 走势 预测 的 例子 中 ， 历 史 走势 、 历 史 成 交 量 等 数据 都 是 在 进行 预测 的 时 候 就 能 够 获得 的 数据 ， 通 过 经 验 ， 我 们 还 知 












































道 历史 走势 和 未 来 走势 可 能 具有 一 定 的 函数 关系 ， 于 是 历史 走势 就 成 了 预测 未 来 走势 的 自 变量 。 在 实际 运用 中 ， 自 变量 往往 具有 实时 、 廉 价 的 特点 。 我 们 通过 当前 已 有 的 、 可 以 廉价 获取 的 自 变 量 数据 ， 来 


预测 





更 难 观测 到 、 更 为 珍贵 的 因 变 量 数据 ， 















































其 实 也 是 一 种 低 买 高 卖 的 投资 。 同 样 ， 自 变量 可 以 是 连续 、 离 散 、 多 维 的 数据 ， 甚 至 是 图 片 、 文 字 等 多 媒体 数据 的 集合 。 

















(3) 预测 函数 




















预测 函数 是 我 们 进行 监督 式 机 器 学 习 的 核心 。 理 想 的 预测 函数 能 够 按照 需求 ， 将 因 变 量 映射 到 自 变 量 空间 。 例 如 在 实时 股价 走势 预测 这 一 应 用 场景 中 ， 我 们 可 以 采用 线性 函数 等 多 种 函数 将 历史 数据 映 
射 到 未 来 走势 函数 的 空间 中 去 。 预 测 函 数 往往 多 种 多 样 ， 其 既 可 能 是 线性 、 树 状 、 网 格 状 函 数 ， 也 可 能 是 Murmur Hash 等 非 线性 二 进 制 处 理 函 数 ， 还 有 可 能 是 前 面 提 到 的 这 些 函数 的 组 合 和 赤 加 。 















































那么 ， 什 么 样 的 机 器 学 习 模型 才 是 适 











于 实际 生产 场景 的 呢 ? 笔者 根据 自己 的 工作 经 验 总 结 了 以 下 几 点 。 








: 低 成 本 模型 : 对 于 腾讯 、 谷 歌 、 阿 里 巴巴 等 航母 型 企业 以 外 的 用 户 ， 推 荐 采用 尽量 低 成 本 的 模型 。 这 里 的 低 成 本 体现 在 两 个 方面 : 软件 包 尽 量 用 现成 的 ， 且 对 软 硬 件 的 要 求 要 尽量 低 。 


: 模型 易于 解释 : 在 实际 应 用 中 ， 我 介 





往往 需要 对 模型 产生 的 结果 进行 解释 和 排 错 。 如 果 模 型 太 过 复杂 ， 难 以 排 错 ， 那 么 势必 会 影响 到 实际 应 用 。 


“ 模型 易于 修改 : 建立 的 机 器 学 习 模型 往往 需要 对 未 发 生 的 事情 进行 预测 。 这 个 时 候 需要 将 人 为 判断 放 入 模型 中 ， 这 就 要 求 机 器 学 习 模型 应 该 能 够 很 容易 地 带 入 人 工 设置 的 参数 。 




















虽然 近 十 年 出 现 了 成 千 上 万 的 机 器 学 习 方法 ， 其 中 不 乏 发 表 于 顶级 刊物 上 的 名 家 大 作 ， 但 是 如 果 按 照 上 面 三 条 逐个 进行 检查 ， 那 么 完全 符合 要 求 的 机 器 学 习 方法 也 就 所 剩 不 多 了 。 





























例如 不 少 读者 都 听 说 过 深度 学 习 这 一 众所周知 的 方法 ， 可 是 仔细 研究 就 会 发 现 ， 深 度 学 习 的 训练 往往 需要 GPU 硬件 的 支持 ， 而 且 深 度 神经 网 络 由 于 其 过 于 复杂 ， 几 乎 无 法 进行 解释 排 错 。 所 以 深度 神经 












































网 络 的 应 用 往往 也 局 限 在 图 像 、 自 然 语 言 处 理 等 特殊 场景 下 ， 对 于 风险 分 析 等 重要 的 应 用 场合 完全 无 法 涉足 。 我 们 在 本 书 末尾 将 介绍 深度 学 习 的 平台 选择 ， 供 有 兴趣 的 读者 参考 。 


在 实 
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多 文 | 





的 ， 稍 微 低 调 一 点 的 频率 学 派 则 认为 参数 是 客观 存在 的 固定 数值 ， 只 是 因为 随机 扰动 的 存在 导致 我 们 无 法 进行 精确 观测 。 


况 ， 


得 到 
新 工 



















































































笔者 之 一 的 彭 河 森 ， 其 博士 论文 是 以 高 维 非 线性 机 器 学 习 为 主题 ， 但 是 经 过 多 年 的 观察 总 结 ， 发 现 还 是 线性 模型 和 朴素 贝 叶 斯 模型 在 实际 应 用 中 最 能 满足 上 面 这 三 点 。 因 此 本 书 也 将 着 重 讲述 线性 模型 
时 机 器 学 习 中 的 应 用 。 
































“江湖 门派 ”对 预测 模型 的 不 同 看 法 











有 深厚 的 技术 功底 只 是 能 在 工业 界 生 存 的 一 半 因素 ， 另 外 一 半 取 决 于 门派 站 队 是 否 正 确 。 机 器 学 习 和 统计 中 一 直 存 在 不 同 的 门派 ， 这 些 门派 就 像 江湖 中 的 各 种 高 手 一 样 ， 都 有 着 自己 的 独门 绝技 ， 很 









































献 和 教程 往往 只 会 注重 一 方面 门派 ， 而 忽略 了 很 多 其 他 门派 的 贡献 。 尽 信 书 不 如 无 书 ， 我 们 鼓励 大 家 多 阅读 、 多 思考 ， 在 实际 应 用 中 形成 自己 的 知识 架构 体系 。 


























大 家 可 能 注意 到 了 ， 第 1 章 对 机 器 学 习 的 定义 其 实 很 模糊 ， 比 如 : 里 面 的 模型 参数 应 该 是 随机 的 还 是 实际 固定 存在 的 ”是 真 的 随机 还 是 只 是 我 们 没有 观测 到 而 已 ”这 些 我 们 并 没有 给 出 具体 的 回答 。 这 是 














因为 不 同 的 门派 对 它 的 意义 和 看 法 都 各 不 一 样 。 下 面 就 来 看 看 都 有 哪些 观点 。 

















在 统计 和 计算 机 理论 领域 ,势力 非常 强大 的 贝 叶 斯 学 派 认 为 参数 是 一 个 随机 变量 ， 因 为 我 们 每 次 对 因 变 量 、 自 变量 进行 观测 之 时 ， 看 到 的 都 是 一 个 不 可 观测 到 的 随机 变量 产生 作用 的 侧 影 。 与 此 相对 应 


























大 家 不 要 小 看 上 面 看 似 微小 的 观点 差别 ， 这 种 基本 世界 观 的 差距 ,会 直接 影响 一 个 企业 的 架构 设计 。 对 我 们 个 人 来 说 ， 最 直接 的 影响 就 是 不 同门 派 的 人 往往 会 各 自 为 政 ， 互 不 往来 。 如 果 没 弄 清楚 情 











频率 学 派 的 人 去 以 贝 叶 斯 学 派 为 3 





E 的 公司 面试 ， 往 往 会 碰 一 鼻子 灰 ， 公 司 内 部 政治 斗争 往往 也 会 按照 这 样 的 门派 站 队 。 所 以 及 时 认 清 派 系 也 是 我 们 核心 技术 人 员 生 存 的 重要 本 领 。 


























说 个 最 直观 的 例子 ，Linkedln 的 一 些 机 器 学 习 高 管 是 贝 叶 斯 学 派 的 忠实 信徒 ， 自 然 ，Linkedln 领 导 开 发 的 几 个 项 目 也 都 是 基于 贝 叶 斯 理论 的 模型 ， 如 果 不 是 贝 叶 斯 模型 ， 那 么 先 要 将 其 贝 叶 斯 化 ， 才 能 











首肯 。 























2.1.2 ”工业 界 的 学 术 门派 


mm 














而 贝 叶 斯 模型 最 擅长 的 当然 是 线性 模型 ， 所 以 致使 LinkedIn 几 乎 所 有 机 器 学 习 模型 都 是 线性 的 。 贝 叶 斯 模型 并 没有 什么 不 好 ， 只 是 ， 如 果 倾 全 公司 之 力 ， 只 做 贝 叶 斯 模型 ， 就 限制 了 深度 学 习 等 
的 加 入 ， 错 过 了 进步 的 机 会 ， 会 比较 可 惜 。 








以 笔者 在 工业 界 摸 聆 滚 打 多 年 积累 的 经 验 来 看 ， 工 业界 的 门派 主要 涉及 了 以 下 三 个 方向 。 





1.“ 重 造 轮子 ”学 派 

















“ 重 造 轮子 (reinvent the wheel) ”学 派 拥有 非常 强大 的 势力 ，“ 重 造 轮子 "学派 的 人 员 往往 都 像 是 在 世 外 山 谷中 修炼 了 干 年 的 高 人 ， 
。 通常 实力 越 是 强大 的 公司 ， 越 有 可 能 存在 “重复 造 轮子 ”的 情况 ， 比 如 ， 阿 里 巴巴 、 百 度 。 





























见地 都 会 让 人 眼前 一 亮 ， 他 们 大 都 具有 独当一面 的 技术 能 






































阿里 巴巴 有 一 个 很 有 意思 的 例子 。 阿 里 巴巴 某 些 业务 组 的 技术 能 力 非常 出 众 ， 在 Hadoop 人 生态 刚刚 兴起 的 时 候 ， 其 开发 人 员 不 满 于 Hadoop 的 运行 效率 ， 自 己 用 (语言 开发 了 一 套 自 有 分 布 式 机 器 学 习 平 
。 后 来 Spark 和 MLLib 的 出 现 直接 解决 了 Hadoop 运 行 效率 的 问题 ， 笔 者 也 很 好 奇 他 们 的 那 套 系统 后 来 怎么 样 了 。 





























百度 也 存 


在 “和 





lw 





2.“ 人 参数 调教 ”学 派 


“参数 调 


在 第 一 次 





教 ”门派 比较 类 似 于 高 位 于 庙堂 之 上 的 士大夫 ， 具 有 出 神 入 化 的 理论 功底 














互联 网 泡沫 达到 易 盛 的 时 候 ， 微 软 、 雅 虎 等 公司 都 成 立 了 自己 的 研究 部 门 








表 文章 。 就 和 


上 非常 惊艳 的 
3.“ 拳 打 | 
“ 源 打 胸 


笔者 入 职 
得 亚马逊 的 机 








， 但 是 作品 却 很 难 接地 气 ， 微 软 、 雅 虎 [1] 都 有 这 样 的 例子 。 

















造 轮子 ”的 情况 ， 深 度 学 习 盛 行 的 时 候 ， 百 度 发 布 了 自己 的 深度 学 习 开源 框架 PaddlePaddle， 但 两 位 笔者 至 今 没 有 认识 任何 非 百 度 的 人 士 在 任何 场景 中 测试 或 应 用 了 该 框架 。 




















， 如 微软 研究 院 、 雅 虎 研究 院 等 。 这 些 部 门 的 研究 人 员 不 需要 像 学 术 界 的 同僚 那样 寻找 资金 项 目 支持 ， 只 需要 专注 发 

















科举 一 样 ， 发 文章 的 竞争 也 是 非常 激烈 的 ， 为 了 得 到 最 好 的 结果 ， 往 往 需 


























模型 拿 到 实际 应 用 中 可 能 只 会 是 一 筹 莫 展 。 现 在 雅虎 被 Verizon 低 价 收购 ， 








郑 踢 ” 学 派 


踢 ” 门 派 更 像 是 江湖 中 的 屯 帮 ， 看 似 灰 头 土 脸 ， 但 是 非常 接地 气 ， 得 型 





亚马逊 的 时 候 ， 亚 马 逊 并 没有 专门 的 机 器 学 习 研 究 部 门 ， 当 时 ， 所 有 的 
器 学 习 人 迭代 非常 快 ， 而 从 来 不 会 在 参数 调教 上 面 浪费 精力 。 








外 一 方 | 
型 ， 它 们 虽然 














面 ， 由 于 亚马逊 非常 讲究 以 客户 为 中 心 ， 出 现 机 器 学 习 模型 失败 的 应 用 时 
效果 很 好 ， 但 其 解释 和 排 错 的 难度 也 是 非常 大 的 。 这 样 对 解释 、 排 错 的 


























还 开发 了 多 项 





可 视 化 工具 ， 方 便 人 工 排 错 。 




















不 同 的 公 
好 用 的 、 受 欢 


























需求 使 得 线性 模型 、 决 策 树 、 随 机 森林 等 简 和 

















微软 研究 院 现在 也 在 向 业务 组 转型 。 





的 结果 往往 也 是 非常 好 的 ， 这 一 派 的 带头 人 首 推 亚马逊 。 





进行 大 量 的 参数 调教 。 从 微软 、 雅 虎 等 公司 出 身 的 研究 员 ， 一 般 都 特别 热 训 于 支持 向 量 机 (SVM) 和 深度 神经 网 络 
(Deep Neural Network，DNN) 两 个 方法 ， 因 为 这 两 个 方法 特别 适合 “参数 调教 ”， 且 往往 能 调 出 特别 好 看 的 结果 ， 以 利于 文章 的 发 表 。 当 然 过 度 的 “参数 调教 ” 带 来 的 后 果 就 是 模型 过 度 拟 合 ， 纸 面 




















研究 员 都 分 散在 业务 组 ， 业 务 的 快速 驱动 使 得 机 器 学 习 相 关 人 员 都 适应 了 快速 上 线 、 抓 主干 的 开发 模式 ， 这 样 的 环境 使 














， 以 CEO 杰 夫 . 贝 索 斯 为 首 的 领导 团队 会 向 下 施 压 寻求 解答 。 机 器 学 习 界 有 很 多 优秀 的 模型 ， 如 深度 神经 网 络 等 复杂 模 

















模型 在 亚马逊 得 到 了 非常 广泛 的 应 用 。 为 了 方便 这 样 的 用 途 ， 亚 马 逊 内 部 




















司 具有 不 同文 化 ， 最 后 做 出 来 的 机 器 学 习 产 品 也 是 不 同 的。 介绍 上 面 这 些 例子 ， 是 希望 大 家 在 设计 实时 机 器 学 习 系 统 的 时 候 能 够 将 公司 的 文化 环境 、 需 求 考虑 在 内 ， 这 样 设计 出 来 的 系统 才 是 











迎 的 系统 。 


2.1.3 ”实时 机 器 学 习 实 战 的 思路 





本 书 的 两 位 笔者 都 曾经 供职 于 亚马逊 和 微软 ， 横 跨 拳 打脚 踢 和 参数 调教 两 大 门派 ， 对 于 实际 的 机 器 学 习 方 法 ， 我 们 是 这 么 认为 的 。 























不 要 重 


























造 轮子 : 重复 造 轮子 听 起 来 是 很 酷 。 很 多 人 喜欢 吹 毛 求 症 说 C 效 率 高 ，Java、Python 不 行 ， 碰 到 这 种 情况 ， 笔 者 往往 会 反问 ，Fortran 更 快 ， 你 为 什么 不 用 Fortran 写 ? 重复 开发 对 开发 人 员 的 











个 人 生活 来 说 是 非常 不 合适 的 。 既 然 已 经 有 了 现成 的 工具 ， 那 么 为 什么 不 早点 完成 任务 下 班 回 家 陪 家 人 呢 ? 现今 






































E 流 开源 软件 的 运行 效率 都 还 不 错 ， 只 是 在 特殊 情况 下 需要 按照 业务 需求 对 软件 运行 环境 进 


行 配置 ， 例 如 调节 Java Heap size、 配 置 线程 数量 等 。 当 然 ， 这 些 操作 听 起 来 并 不 是 那么 酷 ， 但 是 可 以 让 你 早点 下 班 锻炼 身体 ， 为 祖国 健康 工作 五 十 年 。 


没有 模型 
模型 假设 , 也 
重视 上 下 
于 解读 的 模型 
































是 完美 的 : 教科 书 里 的 机 器 学 习 数据 都 假设 用 户 在 同一 个 宏观 环境 中 进行 操作 ， 但 是 实际 应 用 中 并 不 是 这 样 的 。 在 实际 应 用 中 ， 任 何 模型 的 效果 都 会 随 着 时 间 的 流逝 而 衰减 ; 很 多 曾经 成 立 的 






































会 随 着 时 间 的 推移 变 为 无 效 ， 而 新 生态 的 出 现 需要 我 们 不 断 去 抓 取 新 数据 








。 这 就 要 求 我 人 











游 生 态 : 实时 机 器 学 习 系统 往往 只 是 一 个 大 组 织 中 小 小 的 一 环 。 
， 往 往 有 利于 组 织 进行 分 析 学 习 ， 从 组 织 层面 上 达到 新 的 高 度 。 











上 现在 雅虎 已 经 被 Vetizon 收 购 ， 改 名 Altaba， 雅 虎 已 经 成 为 历史 。 


第 2 章 “实时 监督 式 机 器 学 习 


2.1 “什么 是 监督 式 机 器 学 习 


监督 式 机 












































] 不 断 地 去 更 新 模型 ， 不 断 地 审视 自己 的 模型 和 假设 ， 不 断 做 出 改进 。 








得 优秀 的 成 绩 固 然 很 重要 ， 但 是 实时 机 器 学 习 中 产生 的 数据 、 知 识 也 可 能 是 整个 组 织 不 可 或 缺 的 财富 。 采 取 一 些 简单 但 是 易 





器 学 习 旨 在 利用 训练 集 数据 ， 建 立 因 变量 和 自 变 量 之 间 的 函数 映射 关系 。 如 果 用 X 代 表 自 变量 ，Y 代 表 因 变量 ，f 代 表 映 射 函 数 ，b 代 表 映 射 函 数 的 参数 ， 那 么 监督 式 机 器 学 习 的 任务 就 是 找到 恰 















































当 的 函数 f 和 参数 ， 让 下 面 的 映射 尽量 符合 要 求 : 











这 里 e 为 实际 情况 中 的 随机 扰动 项 。 


下 面 就 来 








具体 看 看 在 监督 式 机 器 学 习 中 ， 因 变量 、 自 变量 和 预测 函数 的 含义 。 

















(1) 因 变 量 


























变量 是 我 们 试图 通过 机 器 学 习 模型 预测 的 变量 ， 在 实际 应 用 中 它 往往 无 法 在 预测 之 时 就 能 观测 到 










































































(Xb,e) 





























。 例 如 在 实时 股价 波动 方向 预测 中 ， 未 来 股价 的 走向 就 是 一 个 因 变量 ， 只 有 等 待 时 间 流 逝 之 后 才能 得 



































知 。 我 们 进行 预测 时 只 能 根据 当前 已 有 的 历史 交易 数据 、 基 本 面 信息 等 进行 判断 。 这 个 时 候 就 需要 利用 已 有 的 变量 对 这 一 因 变 量 进行 预测 。 对 于 不 同 的 应 用 场景 ， 因 变量 可 以 是 金额 、 收 入 等 连续 变量 ,也 
可 以 是 性 别 、 状 态 等 离散 变量 ， 还 可 以 是 三 围 、 经 纬度 等 多 维 变 量 。 




















(2) 自 变 量 














变量 是 我 们 在 预测 时 就 已 经 获得 的 ， 可 以 用 于 因 变 量 预测 的 数据 。 例 如 在 实时 股价 走势 预测 的 例子 中 ， 历 史 走 势 、 历 史 成 交 量 等 数 









































道 历 史 走势 和 未 来 走势 可 能 具有 一 定 的 函数 关系 ， 于 是 历史 走势 就 成 了 预测 未 来 走势 的 


预测 更 难 观测 到 、 更 为 珍贵 的 因 变 量 数据 ， 其 实 也 是 一 种 低 买 高 卖 的 投资 。 同 样 ， 自 变量 可 以 是 连续 、 离 散 、 多 维 的 数据 ， 甚 至 是 图 片 、 文 字 等 多 媒体 数据 的 集合 。 






























































(3) 预测 函数 

















自 变 量 。 在 实际 运用 中 ， 自 变量 往往 具有 实时 、 廉 价 的 特点 。 我 们 通过 当前 已 有 的 、 可 以 廉价 获取 的 自 变量 数据 ,来 














居 都 是 在 进行 预测 的 时 候 就 能 够 获得 的 数据 ， 通 过 经 验 ， 我 们 还 知 




















预测 函数 是 我 们 进行 监督 式 机 器 学 习 的 核心 。 理 想 的 预测 函数 能 够 按照 需求 ， 将 因 变 量 映射 到 自 变 量 空间 。 例 如 在 实时 股价 走势 预测 这 一 应 


射 到 未 来 走势 函数 的 空间 中 去 。 预 测 函 数 往往 多 种 多 样 ， 其 既 可 能 是 线性 、 树 状 、 网 格 状 函 数 ， 也 可 能 是 Murmur Hash 等 非 线性 二 进 制 处 理 函 数 ， 还 有 可 能 是 前 面 提 殖 


那么 ， 什 么 样 的 机 器 学 习 模型 才 是 适 



















































































场景 中 ， 我 们 可 以 采用 线性 函数 等 多 种 函数 将 历史 数据 映 
的 这 些 函数 的 组 合 和 肢 加 。 




















“ 低 成 本 模型 : 对 于 腾讯 、 谷 歌 、 阿 里 巴巴 等 航母 型 企业 以 外 的 用 户 ， 推 荐 采用 尽量 低 成 本 的 模型 。 这 里 的 低 成 本 体现 在 两 个 方面 : 软件 包 尽量 用 现成 的 ， 且 对 软 硬 件 的 要 求 要 尽量 低 。 


“ 模型 易于 解释 : 在 实际 应 用 中 ， 我 们 往往 需要 对 模型 产生 的 结果 进行 解释 和 排 错 。 如 果 模 型 太 过 复杂 ， 难 以 排 错 ， 那 么 势必 会 影响 到 实际 应 用 。 


“ 模型 易于 修改 : 建立 的 机 器 学 习 模型 往往 需要 对 未 发 生 的 事情 进行 预测 。 这 个 时 候 需要 将 人 为 判断 放 入 模型 中 ， 这 就 要 求 机 器 学 习 模型 应 该 能 够 很 容易 地 带 入 人 工 设置 的 参数 。 














例如 不 少 读者 都 听 说 过 深度 学 习 这 一 众所周知 的 方法 ， 可 是 仔细 研究 就 会 发 现 ， 深 度 学 习 的 训练 往往 需要 GPU 硬件 的 支持 ， 而 且 深 度 神经 网 












































虽然 近 十 年 出 现 了 成 干 上 万 的 机 器 学 习 方法 ， 其 中 不 乏 发 表 于 顶级 刊物 上 的 名 家 大 作 ， 但 是 如 果 按照 上 面 三 条 逐个 进行 检查 ， 那 么 完 


符合 要 求 的 机 器 学 习 方法 也 就 所 剩 不 多 了 。 




















络 由 于 其 过 于 复杂 ， 几 乎 无 法 进行 解释 排 错 。 所 以 深度 神经 












































网 络 的 应 用 往往 也 局 限 在 图 像 、 自 然 语 言 处 理 等 特殊 场景 下 ， 对 于 风险 分 析 等 重要 的 应 用 场合 完全 无 法 涉足 。 我 们 在 本 书 末尾 将 介绍 深度 学 习 的 平台 选择 ， 供 有 兴趣 的 读者 参考 。 
笔者 之 一 的 彭 河 森 ， 其 博士 论文 是 以 高 维 非 线性 机 器 学 习 为 主题 ， 但 是 经 过 多 年 的 观察 总 结 ， 发 现 还 是 线性 模型 和 朴素 贝 叶 斯 模型 在 实际 应 用 中 最 能 满足 上 面 这 三 点 。 因 此 本 书 也 将 着 重 讲述 线性 模型 











在 实时 机 器 学 习 中 的 应 用 。 














2.1.1 


“江湖 门派 ”对 预测 模型 的 不 同 看 法 














有 深厚 的 技术 功底 只 是 能 在 工业 界 生存 的 一 半 
多 文献 和 教程 往往 只 会 注重 一 方面 门派 ， 而 忽略 了 很 多 其 他 门派 的 贡献 。 尽 信 书 不 如 无 书 ， 我 们 鼓励 大 家 多 阅读 、 多 思考 ， 在 实际 应 














因素 ， 


外 一 

















大 家 可 能 注意 到 了 ， 第 1 章 对 机 器 学 习 的 定义 其 实 很 模糊 ， 比 如 : 
因为 不 同 的 门派 对 它 的 意义 和 看 法 都 各 不 一 样 。 下 面 就 来 看 看 都 用 





在 统计 和 计算 机 理论 领域 ， 势 力 非常 强大 的 贝 叶 斯 学 派 认 为 参数 是 一 个 随机 变量 ， 
的 ， 稍 微 低 调 一 点 的 频率 学 派 则 认为 参数 是 客观 存在 的 固 


大 家 不 要 小 看 上 面 看 似 微小 的 观点 差别 ， 这 种 基本 世界 观 的 差距 ,会 直接 影响 一 个 企业 的 架构 设计 。 对 我 们 个 人 来 说 ， 最 直接 的 影响 就 是 不 同门 派 的 人 往往 会 各 














定数 值 ， 只 是 








取决 于 门派 站 队 是 否 正确 。 机 器 学 习 和 统计 中 一 直 存 在 不 同 的 门派 ， 这 些 门派 就 像 江 湖 中 的 各 种 高 手 一 样 ， 都 有 着 



































自己 的 独门 绝技 ， 很 

















自己 的 知识 架构 体系 。 





中 形成 









































况 ， 频 率 学 派 的 人 去 以 贝 叶 斯 学 派 为 3 


说 个 最 直观 的 例子 ，LinkedIn 的 一 些 机 器 学 习 高 管 是 贝 叶 斯 学 派 的 忠实 信徒 ， 
而 贝 叶 斯 模型 最 擅长 的 当然 是 线性 模型 ， 所 以 致使 LinkedIn 几 3 





得 到 首肯 。 





新 工具 的 加 入 ， 错 过 了 进步 的 机 会 ， 


2.1.2 ”工业 界 的 学 术 门派 








会 比较 可 惜 。 


因为 随机 扰动 的 存在 导致 我 们 无 法 进行 精确 观测 。 





























里 面 的 模型 参数 应 该 是 随机 的 还 是 实际 固定 存在 的 ? 是 真 的 随机 还 是 只 是 我 们 没有 观测 到 而 已 ? 这 些 我 们 并 没有 给 出 具体 的 回答 。 这 是 
了 些 观点 。 
因为 我 们 每 次 对 因 变量 、 自 变量 进行 观测 之 时 ， 看 到 的 都 是 一 个 不 可 观测 到 的 随机 变量 产生 作用 的 侧 影 。 与 此 相对 应 





























自 为 政 ， 互 不 往来 。 如 果 没 弄 清楚 情 











的 公司 面试 ， 往 往 会 碰 一 鼻子 灰 ， 公 司 内 部 政治 斗争 往往 也 会 按照 这 样 的 门派 站 队 。 所 以 及 时 认 清 派系 也 是 我 们 核心 技术 人 员 生 存 的 重要 本 领 。 

















然 ，Linkedln 领 导 开发 的 几 个 项 目 也 都 是 基于 贝 叶 斯 理论 的 模型 ， 如 果 不 是 贝 叶 斯 模型 ， 那 么 先 要 将 其 贝 叶 斯 化 ， 才 能 














所 有 机 器 学 习 模型 都 是 线性 的 。 贝 叶 斯 模型 并 没有 什么 不 好 ， 只 是 ， 如 果 倾 全 公司 之 力 ， 只 做 贝 叶 斯 模型 ， 就 限制 了 深度 学 习 等 





以 笔者 在 工业 界 摸 聆 滚 打 多 重 





1，' 重 造 轮子 "学派 





F 积 累 的 经 验 来 看 ， 工 业界 的 门派 主 


“ 重 造 轮子 (reinvent the wheel) ”学 派 拥 有 非常 强大 的 势力 ， 











DD 





I 


百度 也 存在 “ 刀 





2.“ 人 参数 调教 ”学 派 


“参数 调教 ”门派 比较 类 似 于 高 位 于 庙堂 之 上 的 


在 第 一 次 互联 网 泡沫 达到 局 盛 的 时 候 ， 微 软 、 雅 虎 
表 文 章 。 就 和 科举 一 样 ， 发 文章 的 竞争 也 是 非常 激烈 的 ， 为 了 得 到 最 好 的 结果 ， 往 往 需 
(Deep Neural Network，DNN) 两 个 方法 ， 


。 通 常 实力 越 是 强大 的 公司 ， 越 有 可 能 存在 





造 轮子 ”的 情况 ， 深 度 学 习 盛 行 的 时 候 ， 百 度 发 布 了 





上 大 夫 ， 具 








“重复 造 轮子 ”的 情况 ， 比 如 ， 阿 里 巴巴 、 百 度 。 


阿里 巴巴 有 一 个 很 有 意思 的 例子 。 阿 里 巴巴 某 些 业务 组 的 技术 能 力 非常 出 众 ， 在 Hadoop 生 态 刚刚 兴起 的 时 候 ， 其 开发 人 员 不 
。 后 来 Spark 和 MLLib 的 出 现 直接 解决 了 Hadoop 运 行 效率 的 问题 ， 笔 者 也 很 好 奇 他 们 的 那 套 系统 后 来 怎么 样 了 。 


涉及 了 以 下 三 个 方向 。 




































































“ 重 造 轮子 ”学 派 的 人 员 往 往 都 像 是 在 世 外 山 谷中 修炼 了 干 年 的 高 人 ， 其 见地 都 会 让 人 眼前 一 亮 ， 他 们 大 都 具有 独当一面 的 技术 能 
于 Hadoop 的 运行 效率 ， 自 己 用 C 语 言 开发 了 一 套 自 有 分 布 式 机 器 学 习 平 









































自己 的 深度 学 习 开源 框架 PaddlePaddle， 但 两 位 笔者 至 今 没 有 认识 任何 非 百 度 的 人 士 在 任何 场景 中 测试 或 应 


有 出 神 入 化 的 理论 功底 ， 但 是 作品 却 很 难 接地 气 ， 微 软 、 雅 虎 [1] 都 有 这 样 的 例 














了 该 框架 。 








子 。 

















因 














竹 公 司 都 成 立 了 





自己 的 研究 部 门 ， 如 微软 研究 院 、 雅 虎 研 究 院 等 。 


这 些 部 门 的 研究 人 员 不 需要 像 学术 界 的 同僚 那样 寻找 资金 项 目 支持 ， 只 需要 专注 发 























为 这 两 个 方法 特别 适合 “参数 调教 ”， 且 往往 能 调 出 特别 好 看 的 结果 














上 非常 惊艳 的 模型 拿 到 实际 应 


3.“ 源 打脚 踢 ” 学 派 





“ 源 打 胸 


中 可 能 只 会 是 一 筹 





踢 ” 门 派 更 像 是 江湖 中 的 到 帮 ， 看 似 灰 头 土 脸 ， 但 是 非常 接地 气 ， 得 型 





笔者 入 职 亚马逊 的 时 候 ， 亚 马 逊 并 没有 专门 的 机 器 学 习 研 究 部 门 ， 当 时 ， 所 有 的 





进行 大 量 的 参数 调教 。 从 微软 、 雅 虎 等 公司 出 身 的 研究 员 ， 一 般 都 特别 热 训 于 支持 向 量 机 (SVM) 和 深度 神经 网 络 
， 以 利于 文章 的 发 表 。 当 然 过 度 的 “参数 调教 ” 带 来 的 后 果 就 是 模型 过 度 拟 合 ， 纸 














H 











展 。 现 在 雅虎 被 Verizon 低 价 收购 ， 微 软 研究 院 现在 也 在 向 业务 组 转型 。 





的 结果 往往 也 是 非常 好 的 ， 这 一 派 的 带头 人 首 推 亚马逊 。 














得 亚马逊 的 机 器 学 习 迁 代 非 常 快 ， 而 从 来 不 会 在 参数 调教 上 面 浪 费 精力 。 








外 一 方面 ， 由 








型 ， 它 们 虽然 效果 很 好 ， 但 其 解释 和 排 错 的 难度 也 是 非常 大 的 。 这 样 对 解释 、 排 错 的 需求 使 得 线性 模型 、 决 策 树 、 随 机 森林 等 简单 模型 在 亚马逊 得 到 了 非常 广泛 的 应 
,方便 人 工 排 错 。 




















还 开发 了 多 项 可 视 化 工 





于 亚马逊 非常 讲究 以 客户 为 中 心 ， 出 现 机 器 学 习 模型 失败 的 应 





的 开发 模式 ， 这 样 的 环境 使 








究 员 都 分 散在 业务 组 ， 业 务 的 快速 驱动 使 得 机 器 学 习 相关 人 员 都 适应 了 快速 上 线 、 抓 主 




















团队 会 向 下 施 压 寻 求解 答 。 机 器 学 习 界 有 很 多 优秀 的 模型 ， 如 深度 神经 网 络 等 复杂 模 








时 ， 以 CEO 杰 夫 . 贝 索 斯 为 首 的 领导 


























。 为 了 方便 这 样 的 用 途 ， 亚 马 逊 内 部 









































不 同 的 公司 具有 不 
的 、 受 欢迎 的 系统 。 


可 














好 











2.1.3 ”实时 机 器 学 习 实 战 的 思路 


文化 ， 最 后 做 出 来 的 机 器 学 习 产 品 也 是 不 同 的 。 介 绍 上 


面 这 些 例子 ， 是 希望 大 家 在 设计 实时 机 器 学 习 系统 的 时 候 能 够 将 公司 的 文化 环境 、 需 求 考虑 在 内 ， 这 样 设 计 出 来 的 系统 才 是 











本 书 的 两 位 笔者 都 曾经 供职 于 亚马逊 和 微软 ， 横 跨 拳 打脚 踢 和 参数 调教 两 大 门派 ， 对 于 实际 的 机 器 学 习 方法 ， 我 们 是 这 么 认为 的 。 





























不 要 重 





造 轮子 : 重 











没有 模型 是 完美 的 : 教科 书 旦 





造 轮子 听 起 来 是 很 酷 。 很 多 人 喜欢 吹 毛 求 症 说 C 效 率 高 ，Java、Python 不 行 ， 碰 到 这 种 情况 ， 笔 者 往往 会 反问 ，Fortran 更 快 ， 你 为 什么 不 
个 人 生活 来 说 是 非常 不 合适 的 。 既 然 已 经 有 了 现成 的 工具 ， 那 么 为 什么 不 早点 完成 任务 下 班 回 家 陪 家 人 呢 ? 现今 主流 开源 软件 的 运行 效率 都 还 不 错 ， 只 是 在 特殊 情况 下 需 
行 配置 ， 例 如 调节 Java Heap size、 配 置 线程 数量 等 。 当 然 ， 这 些 操作 听 起 来 并 不 是 那么 酷 ， 但 是 可 以 让 你 时 点 下 班 锯 炼 身体 ， 为 祖 








的 机 器 学 习 数据 都 假设 











户 在 同一 个 宏观 环 





模型 假设 ， 也 会 随 着 时 间 的 推移 变 为 无 效 ， 而 新 生态 的 出 现 需 要 我 们 不 断 去 抓 


























Fortran 写 ? 重复 开发 对 开发 人 员 的 
按照 业务 需求 对 软件 运行 环境 进 
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健康 工作 五 十 年 。 




















境 中 进行 操作 ， 但 是 实际 应 用 中 并 不 是 这 样 的 。 在 实际 应 用 中 ， 任 何 模型 的 效果 都 会 随 着 时 间 的 流逝 而 衰减 ; 很 多 曾经 成 立 的 


























取 新 数据 。 这 就 要 求 我 们 不 断 地 去 更 新 模型 ， 不 断 地 审视 自己 的 模型 和 假设 ， 不 断 做 出 改进 。 














重视 上 下 游 生态 : 实时 机 器 学 习 系统 往往 只 是 一 个 大 组 织 中 小 小 的 一 环 。 取 得 优秀 的 成 绩 固 然 很 重要 ， 但 是 实时 机 器 学 习 中 产生 的 数据 、 知 识 也 可 能 是 整个 组 织 不 可 或 缺 的 财富 。 采 取 一 些 简单 但 是 易 
于 解读 的 模型 ， 往 往 有 利于 组 织 进行 分 析 学 习 ， 从 组 织 层面 上 达到 新 的 高 度 。 


























上 现在 雅虎 已 经 被 Vertizon 收 购 ， 改 名 Altaba， 雅 虎 已 经 成 为 历史 。 


2.2 ”怎样 衡量 监督 式 机 器 学 习 模 型 








本 章 前 面 对 一 个 好 的 实时 机 器 学 习 模 型 的 衡量 只 提 到 了 “优秀 ”“ 合 适 ” 这 样 的 字眼 ， 本 节 将 会 详细 展开 ， 讨 论 监 督 式 实时 机 器 学 习 模型 的 衡量 标准 。 
































在 实际 应 用 中 ， 监 督 式 实时 机 器 学 习 效 果 的 好 坏 可 以 分 为 统计 量 是 否 优秀 和 应 用 业绩 是 否 优秀 两 个 方面 。 下 面 将 按照 这 两 部 分 分 别 进行 介绍 。 

















在 讨论 技术 细节 之 前 ， 先 进行 一 下 符号 的 定义 : 

















































































































给 定 n 组 已 知 的 自 变量 和 因 变 量 {( 区) } 作为 测试 数据 集 ， 对 于 任意 i， 我 们 通过 自 变量 X 和 模型 f (Xi; b) 预测 自 变量 的 数值 ， 得 到 对 因 变量 的 估计 ”= /人 。 








本 节 下 面 的 所 有 内 容 都 与 讨论 Yj 入 的 近似 程度 相关 





2.2.1 统计 量 的 优秀 








一 个 监督 式 机 器 学 习 模型 若 取得 了 优秀 的 统计 量 成 绩 ， 则 代表 着 其 预测 或 分 类 的 误差 较 小 ， 精 确 度 上 比较 优秀 。 对 于 分 类 和 回归 预测 这 两 个 问题 ， 我 们 将 定义 不 同 的 统计 量 。 这 类 统计 量 在 现 有 机 器 学 
习 软 件 包 中 往往 具有 完备 的 函数 支持 ， 例 如 Scikit-learn 的 sklearn.metrics 模 块 中 就 含有 数 十 种 从 统计 量 角度 衡量 模型 优 劣 的 函数 。 这 里 我 们 选取 最 常用 的 几 种 进行 介绍 。 























1. 衡 量 回归 预测 的 统计 量 



































在 回归 、 预 测 等 场景 中 ， 因 变量 Y 往 往 为 连续 变量 。 例 如 ， 我 们 可 能 会 通过 父母 的 身高 预测 子女 成 年 后 的 身高 ， 也 可 能 通过 社交 与 情 数 据 预 测 当 日 股票 收盘 时 期 的 涨 跌幅 。 这 里 的 身高 、 涨 跌幅 都 是 连续 
变量 ， 我 们 对 其 的 预测 值 需要 尽量 接近 真实 观测 值 。 为 了 达到 这 样 的 目的 ， 常 用 的 统计 量 有 以 下 几 种 。 
























































(1) 均 方 误差 





均 方 误差 (Mean Square Error，MSE) 是 统计 中 最 常见 的 误差 衡量 单位 之 一 ， 其 定义 为 : 
































在 数学 上 ， 均 方 误差 的 估计 可 以 追溯 到 正 态 分 布 方差 的 无 偏 估计 。 就 算 Y 实 际 上 不 服从 正 态 分 布 ， 均 方 误差 仍然 具有 优良 的 统计 性 质 。 直 观 上 来 讲 ， 我 们 希望 通过 机 器 学 习 模 型 所 得 预测 的 均 方 误差 应 
尽量 小 。 用 E() 代表 对 随机 变量 数学 期 望 的 计算 ， 可 以 将 其 中 一 个 观测 的 均 方 误差 分 解 为 两 部 分 : 


E(Y—Y) = Var(Y)+ Bias(Y Y 


这 里 的 均 方 误差 可 以 看 作 是 (了 一 了 ) 的 估计 量 ， 等 式 右边 部 分 可 以 分 为 如 下 两 部 分 来 解读 。 











































































































估计 的 方差 ”估计 的 方差 (variance) 刻画 的 是 对 因 变 量 预 测 的 变化 程度 。 真 实 世界 里 ， 任 何 观测 和 度量 都 具有 随机 性 ， 这 样 的 随机 性 决定 了 我 们 对 自 变 量 的 预测 也 具有 客观 存在 的 随机 性 。 这 样 的 随 
机 性 随 着 机 器 学 习 模型 估计 方法 的 不 同 可 能 会 有 所 不 同 。 



































估计 的 系统 性 偏差 ” 当 我 们 的 估计 系统 性 地 偏离 真实 数值 的 时 候 ， 系 统 性 偏差 (bias) 就 会 被 包含 在 均 方 误 差 中 。 在 理论 情况 下 ， 如 果 我 们 使 用 了 无 偏 估 计 ， 系 统 性 偏差 为 零 ， 这 时 均 方 误差 就 只 与 方 
差 有 关 。 当 然 ， 在 实际 应 用 中 ， 我 们 的 模型 或 多 或 少 都 会 有 一 定 的 系统 性 偏差 ， 理 想 情况 就 比较 难以 达到 了 .。 















































比较 上 面 这 两 点 的 异同 是 所 有 数据 科学 家 面试 题目 中 的 必 考 部 分 。 为 了 便于 大 家 理解 ， 这 里 以 图 2-1 作 为 例子 进行 对 比 。 图 2-1 对 比 了 具有 完全 相同 均 方 误差 的 两 组 数据 的 估计 值 和 真实 值 。 图 2-1a 为 无 
偏 估计 ， 但 是 估计 方差 较 大 ; 图 2-1b 的 估计 方差 较 小 ， 但 是 估计 有 偏 。 当 然 ， 其 实 也 是 可 以 分 别 用 方差 和 偏离 程度 来 考量 估计 的 优 劣 的 。 但 是 当 我 们 具有 多 个 统计 量 的 时 候 ， 就 往往 需要 通过 实际 情况 进行 
取舍 了 。 有 的 时 候 我 们 宁愿 牺牲 无 偏 估计 ， 以 换取 估计 的 稳定 性 ， 有 的 时 候 我 们 又 需要 不 顾 一 切 地 保证 估计 的 无 偏 性 。 


可 






















































































(2) 绝对 误差 中 位 数 

















在 实际 应 用 中 我 们 往往 会 遇 到 极端 值 (outlier) 。 例 如 通过 父母 身高 预测 小 孩 身高 的 时 候 混入 了 姚明 的 身高 ， 通 过 浏览 行为 预测 网 购 金额 的 时 候 混入 了 王 思 聪 的 购买 信息 。 这 个 时 候 由 于 极端 数值 的 存 
在 ， 均 方 误差 的 计算 会 大 受 影响 ， 从 而 致使 我 们 得 到 的 模型 评价 的 结论 也 并 不 贴近 实际 。 








< 





图 2-1 估计 值 和 真实 值 的 对 比 ， 两 组 数据 具有 相同 的 均 方 误差 


为 了 解决 这 一 问题 ， 统 计 学 家 们 引入 了 稳健 统计 量 ， 提 出 了 绝对 误差 中 位 数 (MAE) 的 概念 。 绝 对 误差 中 位 数 的 定义 为 : 





MAE = Median(|¥ —Y |) 








这 里 不 再 采用 所 有 误差 的 均值 ， 而 是 使 用 误差 绝对 值 的 中 位 数 作为 统计 量 ， 大 大 减少 了 极端 观测 对 最 终 判断 的 影响 。 





图 2-2 中 对 比 了 存在 极端 值 ( 见 图 2-1a) 和 不 存在 极端 值 ( 见 图 2-1b) 的 分 布 。 图 2-1a 和 图 2-1b 都 有 300 个 观测 点 ， 其 中 图 2-1a 具 有 20 个 随机 选取 的 异常 点 。 在 不 考虑 极端 观测 的 情况 下 ， 图 2-1a 和 图 










































































2-1b 的 分 布 是 完全 相同 的 。 如 果 使 用 均 方 误差 进行 效果 衡量 ， 那 么 图 2-1a 为 0.298， 图 2-1b 为 0.043， 图 2-1b 明 显 优 于 图 2-1a; 如 果 用 绝对 误差 中 位 数 进行 衡量 ， 那 么 图 2-1a 为 0.159， 图 2-1b 为 0.136， 只 


是 略微 优 于 图 2-1a。 















































根据 实际 应 用 的 经 验 ， 极 端 数值 往往 是 客观 存在 的 ， 因 此 ， 建 议 读者 在 进行 评价 的 时 候 应 尽量 采用 稳健 统计 量 绝对 误差 中 位 数 。 








2. 衡 量 分 类 的 统计 量 


在 分 类 等 任务 中 ， 











因 变 量 Y 往 往 是 离散 变量 。 例 如 我 们 可 能 会 通过 用 户 的 浏览 行为 预测 点 击 具体 页 面 的 概率 ， 这 里 最 后 得 到 的 标签 实际 上 是 点 击 或 不 点 击 ， 是 一 个 离散 变量 。 也 可 能 通过 文字 对 话 判断 参 



































与 用 户 的 性 别 ， 这 里 





户 的 性 别 往往 也 是 离散 变量 。 对 于 这 样 的 分 类 问题 ， 特 别 是 分 为 两 类 的 问题 ， 我 们 往往 会 对 实际 标签 和 预测 值 进行 分 类 ， 让 其 定义 为 阳性 (例如 点 击 、 男 性 ) 和 阴性 (例如 不 点 击 、 


女性 ) ， 于 是 我 们 可 以 得 到 表 2-1 所 示 的 内 容 。 


< 











图 2-2 存在 极端 值 (图 2-1a) 和 不 存在 极端 值 (图 2-1b) 的 统计 量 对 比 
表 2-1 预测 标签 和 实际 标签 对 比 








实际 类 别 
项 测 类 别 阴性 
阳性 候 阳 性 
阴性 真 阴性 


统计 学 家 根据 表 2-1 定 义 了 数 十 个 统计 量 ， 本 节 将 介绍 最 常见 的 两 个 统计 量 ， 即 准确 率 和 召回 率 。 
(1) 准确 率 (precision) 


准确 率 是 指 在 被 机 器 学 习 判 断 为 阳性 的 观测 中 ， 真 阳性 观测 所 占 的 比例 : 


准确 率 = 


真 阳性 
真 阳 性 + 假 阳 性 


准确 率 刻画 的 是 喊 “ 狼 来 了 ”的 孩子 有 多 少 次 喊 狼 来 了 的 时 候 是 正确 的 。 例 如 ， 在 实时 股票 走势 预测 的 场景 中 ， 我 们 假设 股价 上 涨 是 阳性 观测 ， 股 价 下 跌 是 阴性 观测 。 在 通过 机 器 学 习 模型 对 其 进行 分 
类 预测 时 ， 准 确 率 的 定义 就 是 被 预测 的 走势 中 ， 被 预测 为 会 上 涨 的 这 些 观测 点 中 ， 实 际 上 真正 上 涨 的 观测 点 所 占 的 比例 。 


(2) 召回 率 (recall) 


召回 率 是 指 在 真实 的 阳性 观测 中 ， 被 判断 为 阳性 的 观测 所 占 的 比例 : 


真 阳性 
真 阳性 + 假 阴 性 


召回 率 刻画 的 是 在 所 有 狼 来 了 的 历史 里 面 ， 有 多 少 次 牧羊 小 孩 成 功 地 发 现 了 狼 。 例 如 ， 在 实时 股票 走势 预测 的 场景 中 ， 我 们 假设 股价 上 涨 是 阳性 观测 ， 股 价 下 跌 是 阴性 观测 。 在 通过 机 器 学 习 模型 对 其 
进行 分 类 预测 时 ， 召 回 率 的 定义 就 是 ， 对 于 所 有 实际 上 涨 的 这 些 观测 点 中 ， 被 预测 为 可 能 会 上 涨 的 观测 点 所 占 的 比例 。 
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2.2.2 ”应 用 业绩 的 优秀 











在 回归 预测 的 任务 中 ， 误 差 对 业务 产生 的 影响 往往 是 不 一 样 的 。 例 如 ， 想 要 通过 建 模 预测 航班 售票 的 情况 ， 若 我 们 预测 的 乘客 数量 比 实际 超出 太 多 ， 则 可 能 会 造成 机 场 安 排 过 多 运力 ， 造 成 浪费 ; 但 是 


Beas 


当 我 们 预测 的 乘客 数量 过 少 ， 又 会 造成 超额 售票 ， 机 场 运力 不 足 ， 这 就 会 对 乘客 的 体验 造成 影响 。 这 个 时 候 对 机 器 学 习 模型 优 劣 的 判断 就 需要 将 不 对 称 的 收益 考虑 进去 。 


























同样 ， 在 分 类 任务 中 ， 准 确 率 和 召回 率 是 相互 竞争 的 两 个 统计 量 。 例 如 ， 我 们 如 果 奉 行 宁可 错 杀 一 百 ， 不 可 放 过 一 个 的 思想 ， 将 所 有 股价 走势 情况 都 预测 为 上 涨 ， 那 么 这 样 我 们 可 以 达到 100% 的 召回 
率 ， 但 是 准确 率 会 变 得 很 低 。 与 此 相对 ， 若 将 所 有 观测 都 预测 为 下 跌 ， 这 样 我 们 可 以 达到 100% 的 准确 率 ， 但 是 召回 率 又 将 变 得 非常 低 。 所 以 ， 真 正 应 
行 权 衡 ， 选 一 个 合适 的 中 间 点 作为 最 终 判断 的 准绳 。 

















在 实际 之 中 时 ， 我 们 往往 需要 对 相互 竞争 的 统计 量 进 





例如 ， 在 股价 走势 预测 建 模 数 据 中 ， 我 们 最 后 的 评判 标准 可 能 


S= ( 假 阳 性 *Ci+ 假 阴性 *C) /N 























其 中 ，N 为 样本 总 量 ，C1 为 每 起 假 阳 性 事件 (将 下 跌 预 测 为 上 涨 ) 带 来 的 损失 ，C2 为 每 起 假 阴 性 事件 〈 将 上 涨 预测 为 下 跌 ) 带 来 的 损失 。 而 最 后 我 们 决策 的 准绳 ， 可 能 是 通过 机 器 学 习 建 模 ， 使 得 上 
的 损失 函数 5 尽量 小 。 
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2.3 ”实时 线性 分 类 器 介绍 


2.3.1 ”广义 线性 模型 的 定义 











(广义 ) 线性 模型 是 机 器 学 习 发 展 几 十 年 来 理论 和 工具 上 最 为 完备 的 模型 : 不 管 是 分 类 还 是 预测 ， 线 性 模型 都 可 以 进行 实时 更 新 和 预测 ;线性 模型 的 解释 性 非常 优秀 ， 每 个 变量 的 回归 系数 都 可 以 用 于 
解释 模型 ; 最后， 我 们 可 以 通过 增 减 变量 ， 修 改 特定 的 回归 系数 对 模型 进行 人 为 加 工 。 






































继续 前 文 的 符号 定义 ， 假 设 回归 因 变 量 为 Y， 自 变量 为 p 维 向 量 X。 在 线性 模型 中 ， 我 们 企 
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获得 p 维 参数 向 量 ， 让 我 们 可 以 通过 X 个 个 元 素 的 现行 组 合 得 到 Y。 它 们 的 关系 可 以 通过 下 面 的 函数 来 表示 : 
Y ~F(,) 
E(Y)= f(7) 
二 
二 


其 中 , F () 为 因 变 量 Y 的 累计 概率 分 布 ，E () 为 数学 期 望 的 计算 。 我 们 可 以 从 以 下 两 个 部 分 来 解读 这 个 模型 。 








(1) 线性 输入 

























































































n=XTb， 每 个 自 变量 X| 对 模型 输出 的 贡献 都 是 线性 的 ， 其 贡献 大 小 都 由 对 应 的 来 决定 。 当 bi=0 时 ， 自 变量 X 不 会 影响 最 后 的 预测 。 这 些 线性 输入 的 总 和 会 直接 影响 最 后 因 变量 的 取 值 。 




















(2) 可 预计 的 输出 





























给 定 n0 时 ， 因 变量 的 取 值 由 连接 函数 f 和 Y 的 分 布 F 来 决定 。 我 们 常用 的 f 和 e 有 以 下 三 种 情况 。 








“ 当 f (mn) =n， 且 F () 为 正 态 分 布 的 累计 概率 分 布 时 ， 模 型 等 于 对 正 态 分 布 的 连续 变量 进行 线性 预测 。 





“ 当 f (mn) =1/ (1+exp (n) ) ， 且 F () 为 二 项 分 布 累 计 概 率 分 布 的 时 候 ， 模 型 等 于 逻辑 回归 模型 ， 可 用 于 对 男女 、 好 恶 等 类 别 进行 分 类 预测 。 
“ 当 f (n) =exp (mn) ， 且 F () 为 泊 松 分 布 累计 概率 分 布 的 时 候 ， 模 型 等 于 泊 松 模型 ， 可 用 于 对 订 票 人 数 、 和 车辆 通过 数量 等 数据 进行 预测 。 


综 上 所 述 ， 众 多 数据 模型 都 是 可 以 通过 线性 模型 的 特殊 情况 进行 建 模 预测 的 。 


2.3.2 ”训练 线性 模型 














给 定 已 知 的 样本 ! (天 艺 ) } -假设 现在 需要 通过 模型 训练 得 到 线性 模型 参数 b， 那 么 我 们 往往 会 定义 目标 函数 L， 通 过 随机 梯度 下 降 的 方法 求 得 b， 使 得 L 尽 量 小 : 


Ler 2 
L=—Y f(b)-Y | + 人 oh +h, |b 


1 jl 











其 中 ， 和 1 和 和 2 是 预先 设置 好 的 非 负 参数 ，||1 为 计算 L1 的 范 数 ，|-|2 为 计算 L2 的 范 数 。 





上 面 的 目标 函数 可 以 分 为 如 下 两 部 分 来 理解 。 
“ 预测 误差 : 目标 函数 第 一 项 预测 误差 ， 我 们 训练 一 个 模型 当然 是 希望 其 得 到 的 误差 应 尽量 小 。 
: 延 罚 苑 数 〈penalty function) : 目标 函数 L 中 第 二 、 三 项 的 存在 是 为 了 防止 所 得 模型 的 过 度 拟 合 ， 加 入 L1 惩 阐 欧 数 还 可 以 进行 变量 优先 选择 。 


这 里 的 参数 和 1 和 入 2 都 是 实现 选择 的 参数 ， 可 以 通过 多 次 比较 不 同 的 模型 来 获取 最 有 效 的 组 合 。 
































现在 对 线性 模型 的 拟 合 工作 已 经 在 主流 机 器 学 习 软 件 工具 中 完全 自动 化 ， 在 scikit-learn 中 ， 对 线性 回归 模型 的 拟 合 主要 采用 sklearn.linear_model.SGDRegressor， 对 于 分 类 问题 ， 主 要 采 
sklearn.linear model.SGDClaffier。 














2.3.3 ，” 冷 启动 问题 




















机 器 学 习 应 用 中 ， 其 实 收集 数据 才 是 最 昂贵 的 一 部 分 。 若 没有 数据 ， 那 么 一 切 模型 都 将 是 空中 楼 阁 。 对 于 新 企业 或 新 项 目 ， 没 有 数据 进行 模型 训练 ， 那 么 怎么 样 才能 有 最 初始 的 模型 呢 》 没有 数据 就 有 
没 模型 ， 但 是 如 果 没有 模型 ， 往 往 也 会 难以 收集 到 数据 。 怎 么 样 才能 解决 这 个 鸡 生 蛋 、 蛋 生 鸡 的 问题 呢 ? 这 个 问题 可 能 会 因为 不 同 的 组 织 而 有 不 同 的 答案 ， 这 里 主要 总 结 如 下 两 个 方案 。 
































1. 借 用 其 他 相关 数据 






































如 果 无 法 获得 当前 组 织 的 机 器 学 习 数 据 进 行 建 模 ， 那 么 其 中 一 个 办 法 是 从 其 他 来 源 获取 类 似 的 数据 ， 建 立 暂 时 能 用 的 模型 。 等 到 产品 成 熟 了 ， 收 集 到 足够 多 的 数据 以 后 再 开发 自身 专 有 的 模型 。 


























例如 ， 某 初创 业 公司 需要 对 小 说 影评 的 正 负 评 价 进行 分 类 。 但 苦于 暂时 没有 现成 的 数据 ， 因 此 借用 了 相关 网 站 ， 如 豆瓣 、 知 乎 等 帖子 的 内 容 ， 作 为 训练 数据 ;又 因为 没有 评价 正 负 标 签 ， 该 公司 将 豆瓣 
评分 、 知 乎 投票 数量 进行 转化 ， 获 得 了 模型 的 正 负 标 签 。 




















2. 人 工 参 与 

















在 遇 到 建 模 冷 启动 问题 的 时 候 ， 该 模型 的 使 用 人 数 往 往 并 不 高 ， 如 果 对 延迟 的 要 求 不 高 ， 完 全 可 以 通过 人 工 标记 的 方法 来 解决 。 














例如 ， 国 内 某 家 已 经 上 市 的 门户 视频 网 站 ， 成 立 多 年 以 来 ， 分 类 、 标 记 、 推 荐 等 业务 都 是 通过 人 工 完成 的 ， 且 取得 了 尚 佳 的 结果 。 如 今 该 网 站 上 市 之 后 拥有 了 雄厚 的 资金 实力 ， 聘 请 了 项 尖 的 机 器 学 习 
专家 进行 视频 的 标签 标记 和 推荐 。 此 时 通过 多 年 的 努力 该 网 站 已 经 积累 了 大 量 的 标签 数据 ， 建 模 的 效果 也 相当 好 。 
































另外 一 方面 ， 处 理 冷 启动 问题 的 时 候 ， 我 们 也 可 以 将 人 工 意见 写 入 模型 之 中 ， 使 其 自动 化 运行 。 例 如 对 于 股价 走势 预测 模型 ， 我 们 可 以 通过 人 工 经 验 ， 对 历史 走势 、 成 交 量 等 因子 进行 人 工 打分 ， 将 人 
工 打分 的 结果 放 入 现行 模型 中 ， 进 行 前 期 应 用 。 


























当然 ， 所 有 人 工 参 与 的 方式 都 离 不 开 严 格 的 监督 流程 。 本 书 的 第 9 章 会 介绍 通过 Elasticsearch 对 数据 进行 可 视 化 分 析 和 质量 监控 的 方法 。 


第 3 章 ”数据 分 析 工 具 Pandas 


3.1 颠覆 R 的 Pandas 























进行 机 器 学 习 应 用 的 第 一 步 是 理解 和 探索 数据 ， 为 此 我 们 需要 一 套 交互 性 很 强 的 软件 。 一 款 理想 的 数据 分 析 软 件 可 以 轻松 地 从 多 个 来 源 读 取 数 据 、 进 行 预 处 理 ， 并 且 还 要 具有 优良 的 统计 和 可 视 化 功 
能 ，Pandas 就 是 这 样 一 款 软件 。 





























Pandas 是 一 款 基于 Python 的 数据 分 析 和 建 模 的 开源 软件 包 。2012 年 两 位 笔者 刚刚 在 亚马逊 相识 的 时 候 ， 如 日 中 天 的 R 工 具 正 是 机 器 学 习 和 数据 分 析 的 主流 ， 而 基于 Python 的 数据 分 析 工具 Pandas 正 在 
默默 无 闻 地 发 展 壮大 。 到 2016 年 本 书写 作 之 时 ，Pandas 已 经 完全 取代 了 R， 成 为 了 主流 业务 中 数据 分 析 的 必 备 软件 。 这 样 的 成 功 与 Pandas 的 设计 是 密 不 可 分 的 。 这 其 中 有 以 下 两 个 方面 的 原因 。 



























































“ 取材 于 R， 超 越 R: Pandas 里 处 处 都 有 R 的 影子 。 首 先 ，Pandas 中 数据 的 基本 单位 是 DataFrame。DataFrame 的 基本 概念 来 自 于 R， 其 代表 的 是 一 个 包含 数据 的 基本 单位 。DataFrame 中 的 每 一 行 代表 一 个 观 
测 ， 每 一 列 代表 一 个 变量 ， 其 中 变量 可 以 是 数值 、 文 本 等 多 种 类 型 ， 这 样 的 数据 结构 大 大 方便 了 机 器 学 习 的 准备 工作 。 


: 优秀 的 生态 对 接 : Pandas 具 有 优秀 的 对 接 接 口 ， 在 与 文本 文件 、HDFS、SQL 等 进行 读 写 操作 时 非常 方便 。 在 可 视 化 方面 ，Pandas 与 MatplotLib 可 以 说 是 整合 得 天 衣 无 颖 。 最 让 人 称道 的 是 ， 为 了 向 R 致 
教 ，Pandas 加 入 了 一 项 参数 ， 从 而 可 以 完全 按照 的 ggplot 风 格 进行 绘图 ， 另 外 ，Pandas 的 底层 数据 结构 也 依赖 于 Python 生 态 中 主流 的 Numpy Array， 可 以 非常 方便 地 调用 numpy、scipy 中 己 有 的 模块 。 


























本 章 将 介绍 Pandas 的 基本 操作 。 这 里 主要 是 利用 Pandas 进 行 初步 数据 清理 和 研究 工作 ， 我 们 也 会 对 数据 可 视 化 进行 初步 介绍 。 但 是 对 于 自动 化 可 视 化 呈现 的 工作 ， 现 今 市 面 上 已 经 有 了 更 为 强大 的 
ELK (Elasticsearch、Logstash、Kibana) 集群 ， 该 集群 将 在 第 9 章 详细 介绍 。 
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进行 机 器 学 习 应 用 的 第 一 步 是 理解 和 探索 数据 ， 为 此 我 们 需要 一 套 交互 性 很 强 的 软件 。 一 款 理想 的 数据 分 析 软 件 可 以 轻松 地 从 多 个 来 源 读 取 数 据 、 进 行 预 处 理 ， 并 且 还 要 具有 优良 的 统计 和 可 视 化 功 
能 ，Pandas 就 是 这 样 一 款 软件 。 















































Pandas 是 一 款 基于 Python 的 数据 分 析 和 建 模 的 开源 软件 包 。2012 年 两 位 笔者 刚刚 在 亚马逊 相识 的 时 候 ， 如 日 中 天 的 R 工 具 正 是 机 器 学 习 和 数据 分 析 的 主流 ， 而 基于 Python 的 数据 分 析 工具 Pandas 正 在 
默默 无 闻 地 发 展 壮大 。 到 2016 年 本 书写 作 之 时 ，Pandas 已 经 完全 取代 了 R， 成 为 了 主流 业务 中 数据 分 析 的 必 备 软件 。 这 样 的 成 功 与 Pandas 的 设计 是 密 不 可 分 的 。 这 其 中 有 以 下 两 个 方面 的 原因 。 












































: 取材 于 R， 超 越 R: Pandas 里 处 处 都 有 R 的 影子 。 首 先 ，Pandas 中 数据 的 基本 单位 是 DataFrame。DataFrame 的 基本 概念 来 自 于 R， 其 代表 的 是 一 个 包含 数据 的 基本 单位 。DataFrame 中 的 每 一 行 代表 一 个 观 
测 ， 每 一 列 代表 一 个 变量 ， 其 中 变量 可 以 是 数值 、 文 本 等 多 种 类 型 ， 这 样 的 数据 结构 大 大 方便 了 机 器 学 习 的 准备 工作 。 


: 优秀 的 生态 对 接 : Pandas 具 有 优秀 的 对 接 接 口 ， 在 与 文本 文件 、HDFS、SQL 等 进行 读 写 操作 时 非常 方便 。 在 可 视 化 方面 ，Pandas 与 MatplotLib 可 以 说 是 整合 得 天 衣 无 颖 。 最 让 人 称道 的 是 ， 为 了 向 R 致 
教 ，Pandas 加 入 了 一 项 参数 ， 从 而 可 以 完全 按照 的 ggplot 风 格 进行 绘图 ， 另 外 ，Pandas 的 底层 数据 结构 也 依赖 于 Python 生 态 中 主流 的 Numpy Array， 可 以 非常 方便 地 调用 numpy、scipy 中 己 有 的 模块 。 




















本 章 将 介绍 Pandas 的 基本 操作 。 这 里 主要 是 利用 Pandas 进 行 初步 数据 清理 和 研究 工作 ， 我 们 也 会 对 数据 可 视 化 进行 初步 介绍 。 但 是 对 于 自动 化 可 视 化 呈现 的 工作 ， 现 今 市 面 上 已 经 有 了 更 为 强大 的 
ELK (Elasticsearch、Logstash、Kibana) 集群 ， 该 集群 将 在 第 9 章 详细 介绍 。 











3.2 ”Pandas 的 安装 


本 章节 的 例子 存放 在 了 官方 Github 的 空间 中 ， 只 需要 进行 以 下 操作 即 可 获得 所 有 代码 和 数据 : 





git clone https://github.com/real-time-machine-learning/1-pandas-intro 














本 节 内 容 假设 读者 是 在 Ubuntu 或 Mac 环 境 下 进行 学 习 的 ， 下 面 的 步骤 可 以 供 Windows 用 户 参考 ， 在 实际 操作 时 有 可 能 需要 稍 作 修 改 。 











1. 安 装 Python3 


在 Ubuntu 下 安装 Python3， 只 需 执 行 下 面 的 命令 即 可 : 





sudo apt-get install Python3 python3-pip Python3-dqev build-essential 











在 Mac 下 利用 Homebrew 安 装 Python3， 只 需 执 行 下 面 的 命令 即 可 : 














brew install Python3 





2. 安 装 Pandas 











这 里 通过 Python 的 Pip 配 置 文件 来 安装 Pandas。 我 们 在 后 面 的 Docker 学 习 中 ， 将 会 看 到 这 样 的 配置 方法 非常 有 利于 自动 化 Docker 操 作 ， 安 装 命令 如 下 : 





sudo pip3 install -r tequirements .txt 











如 果 一 切 顺 利 ， 上 面 的 操作 完成 以 后 ， 就 可 以 启动 Python3 并 且 调 用 Pandas 了 ,命令 如 下 : 




















python3 
>>> import pandas as pd 





3.3 利用 Pandas 分 析 实 时 股票 报价 数据 


























熟悉 一 项 软件 的 最 好 方法 就 是 通过 示例 来 亲自 使 用 它 。 这 里 将 会 通过 分 析 苹果 公司 2015 年 8 月 3 日 秒 级 股票 价格 的 数据 来 熟悉 Pandas 的 用 法 。 建 议 通过 Python 笔记 本 或 交互 式 窗口 的 方法 来 进行 下 面 的 
操作 。 





















































首先 ， 需 要 导入 相关 的 模块 ， 在 导入 Pandas 模 块 的 同时 ， 我 们 还 用 到 了 Datetime 模 块 。Datetime 模 块 的 主要 功能 是 对 时 间 、 日 期 等 数据 进行 处 理 ， 导 入 命令 如 下 : 








import pandas as pd 
from datetime import datetime 





3.3.1 “外 部 数据 导入 

















这 里 将 会 导入 2015 年 8 月 3 日 苹果 公司 的 秒 级 股票 交易 数据 ， 不 过 ， 相 应 的 原始 数据 需要 稍 做 清理 才能 使 用 ， 而 这 正好 符合 本 章 的 学 习 要 点 。 



































首先 ， 用 Pandas 的 read_csv 模 块 直接 从 csv 文 件 中 导入 数据 。 原 始 数据 一 共有 六 列 ， 分 别 存 有 原始 时 间 戳 、 每 秒 开 盘 价 、 最 高 价 、 最 低 价 、 收 盘 价 和 成 交 量 信息 。 可 以 通过 names 参 数 将 这 些 名 字 赋 给 
处 理 好 的 数据 ， 导 入 命令 如 下 : 











data = pd.read csv("aapl.csv", 
names = ["timestamp raw","Open", "High 
"Low", "Close", "Volume"], 
index col = False) 
print (type (data)) 





上 面 的 type (data) 可 以 打印 出 当前 数据 对 象 的 类 。 可 以 看 到 ， 这 里 data 对 象 的 类 名 为 DataFrame， 是 Pandas 中 最 基本 的 数据 形态 。 














导入 数据 之 后 ， 当 然 还 要 看 看 我 们 最 感 兴趣 的 数据 长 什么 样 ， 在 交互 窗口 中 打印 前 5 行 和 后 5 行 。 这 里 需要 用 到 DataFrame 的 head 和 tail 函 数 ， 命 令 如 下 : 











data.head (5) 
data.tail (5) 











可 以 注意 到 记录 中 的 股价 数值 为 原始 股价 乘 以 10000。 











原始 数据 中 的 时 间 记 录 为 每 天 距离 格林 威 治标 准时 间 的 秒 数 乘 以 1000， 为 增加 可 读 性 ， 需 要 将 数据 先 还 原 。 这 里 先 将 data 对 象 的 索引 变 为 处 理 后 的 时 间 标记 ， 并 调用 DataFrame.index 域 ， 示 例 代 码 如 














UNIX EPOCH = datetime (1970, 1, 1, 0, 0) 

def ConvertTime (timestamp raw, date): 
""" 该 函数 会 将 原始 的 时 间 转 化 为 所 需 的 datetime 格 式 """ 
delta = datetime.utcfromtimestamp (timestamp raw) -~ UNIX EPOCH 
return date + delta i 


data.index = map(lambda x: ConvertTime (x, datetime(2015, 8, 3)), 
data["timestamp_raw"]/1000) 




















这 个 时 候 timestamp_raw 一 列 将 不 再 有 用 ， 可 以 删 掉 它 。 这 里 调用 了 DataFrame.drop () 函数 来 实现 该 功能 : 























data = data.drop ("timestamp raw",1) 





3.3.2 ”数据 分 析 基 本 操作 






































导入 数据 并 做 初步 清理 之 后 ， 可 以 调用 DataFrame 对 象 的 函数 对 其 进行 各 种 基本 的 修改 和 描述 。DataFrame 的 很 多 操作 都 是 通过 调用 对 象 的 函数 来 进行 的 ， 具 体 有 哪些 函数 呢 ? 可 以 通过 如 下 dir () 
命令 来 查看 : 


dir (data) 

















经 过 查看 可 以 得 知 ， 大 多 数 的 常用 函数 都 已 经 包含 在 内 了 ， 如 mean (均值 ) 、max (最 大 值 ) 、min (最 小 值 ) 。 例 如 ， 为 了 求 得 该 数据 集 每 一 列 的 均值 ， 我 们 可 以 进行 如 下 操作 ， 求 最 大 值 、 最 小 值 
的 操作 也 与 此 类 似 : 

















data.mean () 





同时 还 可 以 调用 describe 函 数 直 接 产生 常用 的 描述 性 统计 量 ， 命 令 如 下 : 





data.describe () 





我 们 进行 数据 分 析 时 ， 往 往 需要 对 数据 的 假设 进行 检验 。 例 如 美股 交易 时 间 是 从 美国 东部 时 间 的 早上 9: 30 到 下 午 3: 30， 但 是 很 多 主流 股票 还 具有 盘 前 和 盘 后 交易 。 盘 前 和 盘 后 交易 时 间 中 估价 波动 较 
大 ,成 交 量 较 小 ， 对 此 本 书 不 进行 研讨 。 在 进行 其 他 分 析 之 前 ,我 们 需要 检视 一 下 所 有 数据 记录 的 时 间 范 围 。 上 面 的 统计 量 操作 也 可 以 在 data.index 上 执行 。 这 里 DataFrame.index 相 当 于 一 个 Series 对 
象 , 命令 如 下 : 





data.index.min() 
data.index.max() 





可 以 看 到 ， 交 易 时 间 其 实 包括 了 盘 前 和 盘 后 的 大 量 时 间 。 在 实际 交易 策略 中 ， 我 们 往往 只 会 在 正常 交易 时 间 进 行 交易 ， 所 以 需要 对 数据 按照 时 间 进行 拆 分 ， 只 保留 正常 交易 时 间 的 数据 ， 完 成 该 项 操作 
非常 容易 ， 命 令 如 下 : 





data _ trading hour = data["201508030930":"201508031529"] 





3.3.3 ”可 视 化 操作 


进行 了 简单 的 数据 清理 之 后 ， 就 可 以 开始 进行 可 视 化 操作 了 ， 首 先 通 过 目测 的 方式 来 查看 数据 的 分 布 。Pandas 进 行 可 视 化 操作 需要 依赖 于 Matplolib 模 块 ， 这 里 首先 导入 对 应 的 模块 ， 导 入 命令 如 下 : 





import matplotlib 
from matplotlib import pyplot as plt 





Matplotlib 自 带 的 画图 风格 比较 僵硬 ， 需 要 改 改 ， 同 时 为 了 向 R 致 敬 ， 这 里 设置 画图 风格 为 R ggplot 风 ， 设 置 命 令 如 下 : 











matplotlib.style.use('ggplot') 








画图 查看 每 一 秒 的 收盘 价 。 这 里 只 需要 对 Series 类 的 变量 调用 plot 函 数 ， 即 可 得 到 图 3-1 所 示 的 股价 走势 图 ， 调 用 命令 如 下 : 











data trading hour["Close"] .Plot () 
plt.show() 
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图 3-1 2015 年 8 月 3 日 苹果 公司 股票 (AAPL) 股价 走势 (每 秒 收 盘 价 ) 


同时 ， 也 有 人 可 能 对 成 交 量 感 兴趣 。 根 据 格 兰 杰 因果 检验 等 研究 ， 成 交 量 对 股价 变化 也 有 影响 。 每 秒 成 交 量 是 什么 样 的 分 布 ? 可 以 通过 下 面 的 命令 做 出 直方 图 。 只 需要 调用 Series 类 对 象 的 plot.hist 函 数 
即 可 : 





data trading hour["Volume"] .plot.hist () 
plt.show() 





直方 图 画 出 来 之 后 ， 读 者 将 会 发 现 大 多 数 观测 集中 在 了 较 小 的 范围 之 内 ， 但 是 有 若干 秒 的 交易 量 是 其 他 时 候 的 数 倍 。 为 了 更 深入 地 研究 ， 可 以 画 出 时 序 图 做 进一步 的 观察 ， 画 时 序 图 的 命令 如 下 ， 得 到 
的 图 形 如 图 3-2 所 示 。 
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图 3-2 2015 年 8 月 3 日 苹果 公司 股票 每 秒 成 交 量 可 视 化 





data trading hour["Volume"] .describe() 
data trading hour["Volume"] .plot() 
plt.show() 





果然 正如 我 们 所 假设 的 ， 中 午时 分 有 大 单 交易 发 生 。 


3.3.4” 秒 级 收盘 价 变化 率 初探 


当然 ， 对 于 实时 量化 交易 ， 我 们 最 感 兴趣 的 还 是 每 秒 的 变化 率 。 那 么 下 面 我 们 就 来 看 看 股价 变化 的 分 布 情况 。 为 了 到 相 邻 时 间 点 股价 的 变化 率 ， 我 们 可 以 通过 调用 diff 函 数 来 实现 ， 得 到 的 变化 率 序列 也 
是 一 个 Series 类 对 象 。 就 如 3.3.3 节 一 样 ， 我 们 可 以 将 变化 率 可 视 化 ， 得 到 图 3-3。 调 用 diff 数 的 命令 如 下 : 








data trading hour["Close"] .diff() .plot.hist() 
plt.show() 


change = data trading hour["Close"] .diff()/data trading hour["Close"] 
change.Plot () 
plt.show() 
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图 3-3 2015 年 8 月 3 日 苹果 公司 股价 每 秒 间 变 化 率 











现在 回 到 出 发 点 ， 我 们 分 析 和 可 视 化 数据 是 为 了 在 后 文中 发 掘 出 可 能 的 量化 交易 策略 。 我 们 常常 听 说 股价 会 追 涨 杀 跌 ， 在 这 种 模式 中 的 股价 会 按照 趋势 继续 上 涨 或 下 跌 。 我 们 也 听 说 过 可 能 会 均值 反 
转 ， 在 这 种 模式 中 的 股价 会 在 具有 了 大 幅 波动 之 后 回归 平均 值 。 那 么 ， 秒 级 数据 又 有 什么 样 的 趋势 模式 呢 》 可 以 通过 shift 函 数 对 时 间 序 列 进 行 错 位 ， 并 且 通 过 corr 函 数 计 算 两 个 时 间 序列 之 间 的 相关 性 系 
数 。 绝 对 值 较 大 的 相关 性 系数 代表 前 后 时 间 中 股价 变化 的 相关 程度 较 高 ， 绝 对 值 近乎 为 0 则 代表 前 后 时 间 中 股票 变化 相关 线性 程度 低 。shift 函 数 命令 如 下 : 











change. shift (1) .corr (change) 
Change.shift (2) .corr (change) 





通过 图 3-4 可 以 看 到 ， 前 后 一 秒 股价 变化 率 的 相关 性 系数 为 -0.167， 这 样 的 相关 性 对 于 金融 数据 来 说 已 经 非常 显著 了 。 但 是 这 一 相关 性 在 两 秒 的 间隔 之 后 迅速 衰减 到 了 -0.034， 所 以 这 就 要 求 我 们 的 实时 
交易 策略 系统 必须 具有 非常 低 的 延迟 ， 才 能 抓 住 这 样 的 先 机 ， 得 到 超额 的 收益 。 















































其 实 ， 在 时 间 序 列 研究 中 ， 已 经 有 了 一 套 比较 完备 的 描述 性 统计 量 ， 自 相关 性 (auto-correlation) 就 是 这 样 一 个 例子 。MatplotLib 的 acorr 函 数 可 以 自动 对 时 间 序 列 做 出 自 相关 图 ，acorr 函 数 的 命令 
如 下 : 





plt.acorr (change[1:], lw = 2) 
plt.show() 
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3-4 AAPL 股 价 变化 率 自 相关 系数 柱状 图 






































图 3-4 所 示 为 AAPL 股 价 变化 率 自 相关 系数 柱状 图 ， 其 横 轴 的 每 个 刻度 均 代表 时 间 序 列 的 错位 大 小 ，1 表 示 时 间 序 列 与 错位 1 秒 的 自身 进行 相关 性 计算 ; 2 表示 时 间 序 列 与 错位 2 秒 的 自身 进行 相关 性 计算 。 
以 此 类 推 。 该 图 纵 轴 代表 计算 的 相关 性 系数 大 小 。 在 错位 为 0 时 ， 时 间 序 列 和 自身 完美 相关 ， 这 里 的 相关 性 系数 为 1。 













































































从 图 3-4 可 以 看 出 ， 苹 果 公 司 当天 股价 变化 率 的 自 相关 性 随 着 时 间 错 位 的 增加 而 递减 。 前 一 秒 股价 变化 率 和 后 一 秒 股价 呈 负 相关 关系 ， 这 暗示 我 们 在 短期 股票 交易 中 ， 股 价 变化 具有 均值 回归 的 模式 。 在 
均值 回归 模式 中 ， 如 果 股 票 出 现 大 幅 上 涨 或 下 跌 ， 那 么 在 后 面 的 短 时 间 内 ， 可 能 会 出 现 反 向 的 股价 波动 ， 以 减弱 前 期 的 变化 。 














3.4 数据 分 析 的 三 个 要 后 





























本 书后 面 的 章节 中 将 会 以 前 面 发 现 的 均值 回归 的 性 质 为 依托 ， 设 计 实时 机 器 学 习 交 易 策略 进行 交易 。 好 多 读者 看 到 这 里 可 能 已 经 跃跃欲试 ， 等 不 及 要 开始 搭建 服务 器 开始 赚 他 一 个 亿 了 。 但 是 在 这 之 前 
我 们 需要 总 结 一 下 在 开展 机 器 学 习 工作 前 期 关于 数据 分 析 的 几 个 原则 。 








3.4.1 不断 验证 假设 














验证 假设 是 否 正确 是 机 器 学 习 前 期 数据 分 析 最 重要 的 目的 。 这 里 的 假设 包括 但 不 限于 : 数据 的 格式 、 变 量 的 数量 、 数 据 是 否 缺失 、 是 否 有 极端 值 、 采 样 是 否 均衡 等 。 上 面 这 些 假设 ， 如 果 稍 有 差错 ， 就 
会 让 在 后 面 得 到 的 机 器 学 习 模型 无 用 武之 地 。 
























































与 此 同时 ， 我 们 通过 数据 清理 得 到 的 结果 也 需要 经 过 假设 验证 以 保证 数据 的 完整 性 。 最 后 ， 在 实时 应 用 中 ， 我 们 往往 需要 考虑 如 下 这 些 情况 。 

















: 极端 值 : 线 下 建 模 往 往 都 会 在 第 一 步 就 过 滤 掉 极 端 值 ， 但 是 在 实时 环境 中 ， 极 端 值 是 客观 存在 的 。 
“ 缺失 值 : 再 优秀 的 系统 也 有 宕 机 出 错 的 时 候 ， 这 个 时 候 缺 失 值 的 出 现 就 要 求 系统 具有 灵活 的 错误 处 理 能 力 。 


“延迟: 本 章 练习 数据 的 时 间 玲 是 交易 所 时 间 ， 还 是 到 达 客 户 端 服务 器 的 时 间 ? 任何 网 络 延迟 都 可 能 让 我 们 的 模型 不 再 有 效 。 多 问 这 样 的 问题 在 进行 快速 机 器 学 习 应 用 的 时 候 显得 尤为 重要 。 


3.4.2 全面 可 视 化 ， 全 面 监控 化 


为 了 连续 验证 假设 ， 我 们 必须 自动 化 数据 的 监控 和 可 视 化 。 一 个 完备 的 实时 机 器 学 习 系统 至 少 需要 以 下 两 个 部 件 。 
: 实时 关键 数据 可 视 化 : 通过 实时 面板 对 关键 数据 进行 可 视 化 ， 让 操作 人 员 能 够 一 目 了 然 地 判断 系统 和 数据 的 健康 情况 。 


“ 实时 诊断 监控 : 通过 规则 设 定 ， 对 异常 情况 进行 实时 判断 和 报警 。 








本 书 的 系统 架构 章节 (第 9 章 ) 将 介绍 如 何 利用 ELK (Elasticsearch、Logstash、Kibana) 集群 实现 实时 数据 监控 。 








第 4 章 ”机 器 学 习 工具 Scikit-learn 


4.1 如 何 站 在 风口 上 ? 向 Scikit-learn 学 习 



































假设 一 个 技术 开发 人 员 能 够 健康 工作 50 年 ， 这 期 间 每 10 年 他 都 会 遇 到 一 次 技术 的 更 新 换代 ， 那 么 一 个 技术 人 员 的 职业 生涯 里 ， 至 少 会 有 5 次 需要 更 换 自己 的 主要 工具 [1]。 而 数据 分 析 、 建 模 的 工 
随 着 技术 的 革新 而 不 断 改变 。 如 果 能 看 准 技术 的 前 进 方向 ， 就 能 让 自己 站 在 风口 上 ， 走 在 时 代 的 最 前 沿 。 



























































在 机 器 学 习 领 域 ，Scikit-learn 是 当前 最 流行 的 机 器 学 习 建 模 和 分 析 软 件 之 一 ， 它 基于 Python 实现 ， 在 本 书写 作 的 时 候 已 有 成 王 上 万 的 用 户 。2012 年 Scikit-learn 还 是 默默 无 闻 的 一 款 小 众 软件 ， 其 为 什 
么 能 在 2016 年 一 跃 成 为 机 器 学 习 最 主流 的 工具 呢 ? 笔者 作为 在 该 领域 摸 聆 滚 打 的 “老司 机 ”， 想 先 跟 大 家 探讨 一 下 这 个 问题 。 



























































让 我 们 时 钟 倒转 ， 回 到 2012 年 。 这 一 年 发 生 了 很 多 “大 事 ”: 例如 两 位 笔者 中 的 彭 河 森 博士 毕业 ; 汪涵 为 追求 理想 ， 从 对 冲 基金 跳槽 ， 两 人 都 到 了 亚马逊 ， 一 见 如 故 成 了 “好 基 友 ” ， 于 是 后 面 才 会 有 
这 本 书 的 撰写 合作 。2012 年 机 器 学 习 软件 的 格局 是 怎么 样 呢 ? 总 结 成 一 句 话 就 是 诸侯 割据 ， 但 都 不 成 气候 。 机 器 学 习 软件 界 ， 可 以 分 为 如 下 三 大 阵营 ， 下 面 我 们 就 来 逐个 分 析 。 
























































4.1.1 ”传统 的 线 下 统计 软件 R 


























这 个 阵营 以 SAS、R、MatLab 等 软件 为 代表 ， 主 要 用 户 是 统计 、 数 学 、 物 理 等 理论 领域 出 身 的 技术 人 员 。 这 些 软 件 生态 里 面 ， 具 有 最 先进 的 方法 论 软件 包 ， 一 般 统计 界 最 新 的 方法 论 都 会 作为 R 软 件 包 
分 享 给 大 众 。 















































传统 统计 软件 界 拘泥 于 线 下 分 析 。 首 先 SAS 和 MatLab 都 是 商业 软件 ， 如 果 上 线 运行 需要 按照 使 用 数量 支付 昂贵 的 版 权 费 ， 从 根本 上 就 不 适合 大 规模 的 工业 化 应 用 。R 是 基于 Insightful 公 司 的 语言 编写 
的 ， 其 在 性 能 上 优 于 商业 版 的 S-plus， 起 初 具有 最 好 的 势头 。 









































可 惜 R 在 设计 之 初 留 下 了 很 多 病根 ， 再 好 看 的 统计 方法 ， 在 实际 应 用 中 若 无 法 落地 那 就 无 发 展 前 景 可 言 。R 的 包 管 理 一 直 是 一 个 令 人 非常 头疼 的 问题 ， 首 先 在 生产 环境 中 运行 R， 就 需要 安装 C、C++、 
Fortran 等 多 个 编译 器 ， 如 果 涉 及 画图 等 一 些 高 级 功能 ， 则 还 需要 不 断 安装 libpng、libgraphicviz 等 二 进 制 代码 包 ， 甚 至 还 包括 Java 和 Python。 在 一 台 机 器 上 能 够 成 功 运行 的 程序 ， 往 往 拿 到 另外 一 台 机 器 
上 就 会 因为 缺乏 安装 包 而 无 法 运行 。 为 了 解决 这 样 的 问题 ， 采 用 R 做 初始 数据 分 析 的 组 织 往往 会 在 线 下 用 R 建 模 ， 等 模型 成 熟 以 后 ， 再 用 Python、Java 等 生产 环境 语言 将 整个 建 模 过 程 重新 实现 一 次 。 这 样 的 
过 程 会 浪费 研发 人 员 大 量 的 精力 。 
































































































































若 无 法 解决 工业 化 运行 的 问题 ， 则 将 直接 导致 本 来 燕 节 日 上 的 R 被 边缘 化 。 后 来 Docker 的 出 现 从 一 定 程度 上 解决 了 配置 的 难题 ， 但 是 也 没有 挽回 R 被 日 益 边 缘 化 成 为 和 Excel 并 列 的 画 
然 在 本 书写 作 的 时 候 ，R 的 发 展 仍然 非常 迅猛 ， 也 出 现 了 如 Rserver、shiny 等 平台 化 产品 ， 但 是 其 主要 应 用 场景 更 多 的 是 在 数据 分 析 、 报 表 呈 现 领 域 。R 已 经 不 再 能 够 解决 工业 化 的 问题 。 
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工具 的 势头 。 虽 










































































从 这 个 案例 中 也 可 以 看 出 ， 一 个 好 的 工具 软件 ， 不 管 它 有 多 么 强大 ， 也 一 定 要 接地 气 ， 要 能 够 自动 化 部 署 运 行 。 


4.1.2 ”底层 软件 黑 盒 子 Weka 














2012 年 左右 Hadoop 等 平台 正 开始 盛行 ， 这 个 时 候 出 现 了 一 批 以 lava、C 等 语言 为 基础 的 软件 包 ， 其 中 最 受 关注 的 有 以 下 几 个 。 








“ Weka: 基于 Java 实 现 ， 由 Java 原 生 编 写 而 来 ， 虽 然 名 不 见 经 传 ， 但 是 在 工业 场景 中 “ 问 声 发 大 财 ”， 得 到 了 广泛 的 应 用 ， 另 外 Weka 支 持 PMML 标 准 ， 线 下 通过 Python 等 软件 建 模 的 模型 也 可 以 在 线 上 通 
过 Weka 来 运行 。 这 一 功能 直接 促使 Weka 成 为 亚马逊 、 雅 虎 等 众多 老牌 门户 网 站 的 看 家 法 宝 。 


“ Mahout: Mahout 是 一 套 基 于 Java 实 现 的 在 Hadoop 上 运行 的 软件 包 。 自 发 布 初期 以 来 ，Mahout 一 直 因 为 Hadoop 运 行 效率 太 低 为 人 所 诉 病 ， 在 基于 Spatk 的 MLLib 出 现 以 后 ， 其 很 快 就 取代 了 Mahout。 


“ C 语 言 工具 系 : 这 一 大 类 大 多 是 经 验 丰富 的 老牌 机 器 学 习 专 家 编写 的 软件 包 ， 例 如 Volpal Wabbit、libsvm 等 。 这 些 优秀 的 软件 包 后 来 逐渐 被 Python、 有 等 工具 所 吸纳 ， 成 为 了 高 级 语言 的 一 部 分 ， 而 不 需 
要 用 户 直 接 与 之 进行 交互 。 





























上 面 提 到 的 几 个 软件 都 很 少 具 有 完备 的 用 户 界 面 ， 建 模 操作 往往 需要 通过 命令 行 或 Java 来 进行 ， 模 型 可 视 化 也 要 借助 于 其 他 软件 。 尽 管 如 此 ， 时 至 今日 仍然 有 不 少 公司 还 在 使 用 它们 。 可 见 ， 只 要 实 
， 界 面 再 简陋 也 都 有 人 用 。 






























































4.1.3 ” 跨 界 产品 Scikit-learn 









































从 上 面 的 介绍 中 ， 我 们 可 以 得 知 : 一 个 优秀 的 工具 软件 ， 一 方面 需要 紧 扣 实际 ,另外 一 方面 最 好 能 具有 数据 分 析 的 基本 功能 ， Python 就 是 这 样 的 软件 。Scikit-learn 成 为 机 器 学 习 的 最 主流 软件 具有 一 
定 历史 必然 性 。 

















“ 长 期 积累 : 早 在 Scikit-learmm 出 现 之 前 ，Python 就 已 经 积累 了 大 量 的 数值 计算 工具 软件 包 ， 如 Numpy、Scipy。 这 些 软 件 包 日 后 都 成 了 Scikit-learn 的 发 展 基 础 。 基 于 这 些 成 熟 的 软件 包 ， 新 软件 包 的 开发 人 
员 可 以 在 高 层 直接 进行 开发 ， 这 点 大 大 提高 了 迭代 效率 。 


: 大 牌 构建 生态 : 说 及 Scikit-learn 的 开发 历史 ， 必 然 会 提 到 谷歌 。 早 在 2007 年 ， 谷 歌 就 通过 Google Summer of Code 项 目 资助 过 该 项 目的 开发 。 后 来 从 2011 年 起 ， 谷 歌 连 续 每 年 都 资助 该 项 目的 开发 。 有 了 
谷歌 打 大 旗 ， 数 以 千 计 的 开发 人 员 都 投身 于 该 项 目 中 来 ， 促 使 Scikit-learn 的 发 展 日 益 扩大 。 


“ 紧 扣 实际 : Scikitlearn 项 目 自始至终 都 没有 脱离 Python 生态 的 怀抱 。 这 让 基于 该 平台 开发 的 任何 算法 都 可 以 快速 上 线 。 另 外 ， 由 于 Python 可 以 很 自然 地 与 底层 GPU 等 硬件 进行 通信 ， 因 此 在 深度 学 习 得 
到 大 力 发 展 之 后 ，Scikit-learn 的 发 展 又 得 到 了 巨大 的 提升 。 与 此 对 比 ， 基 于 Java 的 软件 ， 如 MLLib ， 由 于 JVM 的 阻隔 难以 直接 与 GPU 进行 通信 ， 因 此 其 在 深度 学 习 的 大 潮 中 慢 慢 地 处 于 了 下 风 。 


4.1.4 Scikit-learn 的 优势 
































综 上 所 述 ， 上 面 提 到 的 开发 流程 主要 可 以 用 图 4-1 来 进行 对 比 。 图 4-1a 为 线 下 建 模 、 验 证 ， 之 后 又 用 生产 语言 再 次 开发 部 署 的 流程 。 图 4-1b 为 采用 Scikit-learn 进 行 建 模 、 验 证 ， 并 且 直接 进行 部 署 的 流 
程 。 如 果 采 用 R、MatLab 等 语言 进行 线 下 建 模 ， 那 么 在 进行 线 上 部 署 的 时 候 往 往 需要 通过 二 次 开发 为 生产 环境 再 次 编写 代码 。 这 样 的 流程 不 但 浪费 时 间 ， 还 很 容易 引入 漏洞 ， 且 难以 排 错 。 在 使 用 了 Scikit- 
learn 等 开发 工具 以 后 ， 开 发 流程 简化 为 图 4-1b 所 示 的 模式 ， 直 接 大 大 缩短 了 开发 周期 ， 减 少 了 出 错 的 几率 。 






















































































































































































笔者 之 一 的 彭 河 森 也 是 统计 科班 出 身 ， 从 2005 年 就 开始 写 R， 并 为 R 社 区 贡献 了 多 个 软件 包 ， 在 2012 年 以 后 ， 其 开始 转向 Python 平台 的 机 器 学 习 软件 使 用 。 可 以 想见 ，Scikit-learn 的 兴起 具有 一 定 的 历 
史 的 必然 性 。 由 于 其 开源 的 特性 ， 以 及 优良 的 系统 结合 能 力 ， 笔 者 认为 该 软件 将 是 未 来 10 年 机 器 学 习 领 域 的 平台 软件 。 在 后 面 的 RabbitM Q 等 章节 里 面 ， 将 带 大 家 领略 Scikit-learn 与 实时 机 器 学 习 系统 架构 
及 Python 数据 分 析 生 态 的 完美 结合 。 
























































为 生产 环境 建 模 


为 生产 环境 建 模 分 析 建 模 假 设 (Scikit-learn ) 


(Weka 等 ) 


[半生 产 模 再 i 


机 
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me 


实时 评价 模型 评价 模型 效 采 


图 4-1 开发 周期 对 比 
D 当然， 有 些 优 秀 的 工具 ， 如 Emacs， 是 豆 古 不 变 的 。 


第 4 章 机 器 学 习 工具 Scikit-learn 


4.1 如 何 站 在 风口 上 ?向 Scikit-learn 学 习 























假设 一 个 技术 开发 人 员 能 够 健康 工作 50 年 ， 这 期 间 每 10 年 他 都 会 遇 到 一 次 技术 的 更 新 换代 ， 那 么 一 个 技术 人 员 的 职业 生涯 里 ， 至 少 会 有 5 次 需要 更 换 自己 的 主要 工具 [1]。 而 数据 分 析 、 建 模 的 工具 ， 
































随 着 技术 的 革新 而 不 断 改变 。 如 果 能 看 准 技术 的 前 进 方向 ， 就 能 让 自己 站 在 风口 上 ， 走 在 时 代 的 最 前 沿 。 























路 








在 机 器 学 习 领 域 ，Scikit-learn 是 当前 最 流行 的 机 器 学 习 建 模 和 分 析 软 件 之 一 ， 它 基于 Python 实 现 ， 在 本 书写 作 的 时 候 已 有 成 干 上 万 的 用 户 。2012 年 Scikit-learn 还 是 默默 无 闻 的 一 款 小 众 软件 ， 其 为 什 























么 能 在 2016 年 一 跃 成 为 机 器 学 习 最 主流 的 工具 呢 ? 笔者 作为 在 该 领域 摸 肥 滚 打 的 “老司 机 ”， 想 先 跟 大 家 探讨 一 下 这 个 问题 。 




















让 我 们 时 钟 倒转 ， 回 到 2012 年 。 这 一 年 发 生 了 很 多 “大 事 ”: 例如 两 位 笔者 中 的 彭 河 森 博士 毕业 ; 汪涵 为 追求 理想 ， 从 对 冲 基金 跳槽 ， 两 人 都 到 了 亚马逊 ， 一 见 如 故 成 了 
这 本 书 的 撰写 合作 。2012 年 机 器 学 习 软件 的 格局 是 怎么 样 呢 ? 总 结 成 一 句 话 就 是 诸侯 割据 ， 但 都 不 成 气候 。 机 器 学 习 软 件 界 ， 可 以 分 为 如 下 三 大 阵营 ， 下 面 我 们 就 来 逐个 分 析 。 





























4.1.1 传统 的 线 下 统计 软件 R 














“好 基 友 ” ， 于 是 后 面 才 会 有 


这 个 阵营 以 SAS、R、MatLab 等 软件 为 代表 ， 主 要 用 户 是 统计 、 数 学 、 物 理 等 理论 领域 出 身 的 技术 人 员 。 这 些 软 件 生态 里 面 ， 具 有 最 先进 的 方法 论 软件 包 ， 一 般 统计 界 最 新 的 方法 论 都 会 作为 R 软 件 包 




















分 享 给 大 众 。 


传统 统计 软件 界 拘泥 于 线 下 分 析 。 首 先 SAS 和 MatLab 都 是 商业 软件 ， 如 果 上 线 运 行 需要 按照 使 用 数量 支付 昂贵 的 版 权 费 ， 从 根本 上 就 不 适合 大 规模 的 工业 化 应 用 。R 是 基于 
的 ， 其 在 性 能 上 优 于 商业 版 的 S-plus， 起 初 具有 最 好 的 势头 。 





























FInsightful 公 司 的 S 语 言 编写 





可 惜 R 在 设计 之 初 留 下 了 很 多 病根 ， 再 好 看 的 统计 方法 ， 在 实际 应 上 
Fortran 等 多 个 编译 器 ， 如 果 涉 及 画 
上 就 会 
































中 若 无 法 落地 那 就 无 发 























展 前 景 可 言 。R 的 包 管理 一 直 是 一 个 令 人 非常 头疼 的 问题 
等 一 些 高 级 功能 ， 则 还 需要 不 断 安装 libpng、libgraphicviz 等 二 进 制 代码 包 ， 甚 至 还 包括 Java 和 
因为 缺乏 安装 包 而 无 法 运行 。 为 了 解决 这 样 的 问题 ， 采 用 R 做 初始 数据 分 析 的 组 织 往往 会 在 线 下 上 
过 程 会 浪费 研发 人 员 大 量 的 精力 。 



























































首先 在 生产 环境 中 运行 R， 就 需要 安装 C、C++、 





R 建 模 ， 等 模型 成 熟 以 后 ， 再 | 
若 无 法 解决 工业 化 运行 的 问题 ， 则 将 直接 导致 本 来 燕 燕 日 上 的 R 被 边缘 化 。 后 来 Docker 的 出 现 从 一 定 程度 上 
然 在 本 书写 作 的 时 候 ，R 的 发 

















Python。 在 一 台 机 器 上 能 够 成 功 运行 的 程序 ， 往 往 拿 到 另外 一 台 机 器 
Python、Java 等 4 


上 产 环境 语言 将 整个 建 模 过 程 村 


































































































新 实现 一 次 。 这 样 的 
解决 了 配置 的 难题 ， 但 是 也 没有 挽回 R 被 日 益 边 缘 化 成 为 和 Excel 并 列 的 画图 工具 的 势头 。 虽 
展 仍然 非常 迅猛 ， 也 出 现 了 如 Rserver、shiny 等 平台 化 产品 ， 但 是 其 主要 应 用 场景 更 多 的 是 在 数据 分 析 、 报 表 呈 现 领 域 。R 已 经 不 再 能 够 解决 工业 化 的 问题 。 
从 这 个 案例 中 也 可 以 看 出 ， 一 个 好 的 工具 软件 ， 不 管 它 有 多 么 强大 ， 也 一 定 要 接地 气 ， 要 能 够 自动 化 部 署 运行 。 
4.1.2 ”底层 软件 黑 盒子 Weka 
2012 稀 























F 左 右 Hadoop 等 平台 正 开始 盛行 ， 这 个 时 候 出 现 了 一 批 以 Java、C 等 语言 为 基础 的 软件 包 ， 


中 最 受 关注 的 有 以 下 几 个 。 
过 Weka 来 运行 。 这 一 功能 直接 促使 Weka 成 为 亚马逊 、 雅 虎 等 众多 老牌 门户 网 站 的 看 家 法 宝 。 


“ Weka: 基于 Java 实 现 ， 由 Java 原 生 编 写 而 来 ， 虽 然 名 不 见 经 传 ， 但 是 在 工业 场景 中 “ 问 声 发 大 财 ”， 得 到 了 广泛 的 应 用 ， 另 外 Weka 支 持 PMML 标 准 ， 线 下 通过 Python 等 软件 建 模 的 模型 也 可 以 在 线 上 通 


“ Mahout: Mahout 是 一 套 基于 Java 实 现 的 在 Hadoop 上 运行 的 软件 包 。 自 发 布 初期 以 来 ，Mahout 一 直 因 为 Hadoop 运 行 效率 太 低 为 人 所 诉 病 ， 在 基于 Spatk 的 MLLib 出 现 以 后 ， 其 很 快 就 取代 了 Mahout。 
要 用 户 直 接 与 之 进行 交互 。 
























































户 界 
， 界 面 再 简陋 也 都 有 人 用 。 





“ C 语 言 工 具 系 : 这 一 大 类 大 多 是 经 验 丰富 的 老牌 机 器 学 习 专家 编写 的 软件 包 ， 例 如 Volpal Wabbit、libsvm 等 。 这 些 优 秀 的 软件 包 后 来 逐渐 被 Python、 有 等 工具 所 吸纳 ， 成 为 了 高 级 语言 的 一 部 分 ， 而 不 需 
上 面 提 到 的 几 个 软件 都 很 少 具有 完备 的 面 ， 建 模 操作 往往 需要 通过 命 


行 或 Java 来 进行 ， 模 型 可 视 化 也 要 借助 于 其 
4.1.3 ” 跨 界 产品 Scikit-learn 














他 软件 。 尽 管 如 此 ， 时 至 今日 仍然 有 不 少 公司 还 在 使 

















它们 。 可 见 ， 只 
从 上 面 的 介绍 中 ， 我 们 可 以 得 知 : 一 个 优秀 的 工具 


实 

















软件 ， 一 方面 需要 紧 扣 实际 ， 另 外 一 方面 最 好 能 具有 数 








居 分 析 的 基本 功能 ，Python 就 是 这 样 的 软件 。Scikit-learn 成 为 机 器 学 习 的 最 了 
员 可 以 在 高 层 直接 进行 开发 ， 这 点 大 大 提高 了 迭代 效率 。 


























EF 流 软 件 有 一 
“ 长 期 积累 : 早 在 Scikit-learmm 出 现 之 前 ，Python 就 已 经 积累 了 大 量 的 数值 计算 工具 软件 包 ， 如 Numpy、Scipy。 这 些 软 件 包 日 后 都 成 了 Scikit-learn 的 发 展 基 础 。 基 于 这 些 成 熟 的 软件 包 ， 新 软件 包 的 开发 人 


大 牌 构建 生态 : 说 及 Scikit-learn 的 开发 历史 ， 必 然 会 提 到 谷歌 。 早 在 2007 年 ， 谷 歌 就 通过 Google Summer of Code 项 目 资助 过 该 项 目的 开发 。 后 来 从 2011 年 起 ， 谷 歌 连续 每 年 都 资助 该 项 目的 开发 。 有 了 
谷歌 打 大 旗 ， 数 以 千 计 的 开发 人 员 都 投身 于 该 项 目 中 来 ， 促 使 Scikit-learn 的 发 展 日 益 扩大 。 


到 大 力 发 展 之 后 ，Scikit-learn 的 发 展 又 得 到 了 巨大 的 提升 。 与 此 对 比 ， 基 于 Java 的 软件 ， 如 MLLib， 由 于 JVM 的 阻隔 难以 直接 与 GPU 进行 通信 ， 因 此 其 在 深度 学 习 的 大 潮 中 慢 慢 地 处 于 了 下 风 。 
4.1.4 Scikit-learn 的 优势 





“ 紧 扣 实际 : Scikit-learn 项 目 自始至终 都 没有 脱离 Python 生态 的 怀抱 。 这 让 基于 该 平台 开发 的 任何 算法 都 可 以 快速 上 线 。 另 外 ， 由 于 Python 可 以 很 自然 地 与 底层 GPU 等 硬件 进行 通信 ， 因 此 在 深度 学 习 得 


综 上 所 述 ， 上 面 提 到 的 开发 流程 











































































































































































































可 以 用 图 4-1 来 进行 对 比 。 图 4-1a 为 线 下 建 模 、 验 证 ， 之 后 又 用 生产 语言 再 次 开发 部 署 的 流程 。 图 4-1b 为 采用 Scikit-learn 进 行 建 模 、 验 证 ， 并 且 直接 进行 部 署 的 流 
程 。 如 果 采 用 R、MatLab 等 语言 进行 线 下 建 模 ， 那 么 在 进行 线 上 部 署 的 时 候 往往 需要 通过 二 次 开发 为 生产 环境 再 次 编写 代码 。 这 样 的 流程 不 但 浪费 时 间 ， 还 很 容易 引入 漏洞 ， 且 难以 排 错 。 在 使 用 了 Scikit- 
learn 等 开发 工具 以 后 ， 开 发 流程 简化 为 图 4-1b 所 示 的 模式 ， 直 接 大 大 缩短 了 开发 周期 ， 减 少 了 出 错 的 几率 。 
笔者 之 一 的 彭 河 森 也 是 统计 科班 出 身 ， 从 2005 年 就 开始 写 R， 并 为 R 社 区 贡献 了 多 个 软件 包 ， 在 2012 年 以 后 ， 其 
史 的 必然 性 。 由 于 其 开源 的 特性 ， 以 及 优良 的 系统 结合 能 力 ， 笔 者 认为 该 软件 将 是 未 来 10 生 
及 Python 数据 分 析 生 态 的 完美 结合 














始 转向 Python 平台 的 机 器 学 习 软件 使 
F 机 器 学 习 领 域 的 平台 软件 。 在 后 


5] 




















可 以 想见 ，Scikit-learn 的 兴起 具有 一 定 的 历 
面 的 RabbitMQ 等 章节 里 面 ， 将 带 大 家 领略 Scikit-learn 与 实时 机 器 学 习 系统 架构 


























为 生产 环境 建 模 


(Scikit-learn ) 


Dn ty 


~- 


图 4-1 开发 周期 对 比 
[中 当然， 有些 优秀 的 工具 ， 如 Emacs， 是 豆 古 不 变 的 。 


4.2 Scikit-learn 的 安装 


本 章 的 例子 都 存放 于 官方 Github 空 间 中 ， 只 需要 通过 以 下 链接 即 可 获得 所 有 的 代码 和 数据 : 


部 普 生 产 模型 


评价 模型 效 采 





’ 


和 ~ 
Say ay -oho 
和 人 





git clone https://github.com/real-time-machine-learning/2-scikit-learn-intro 





本 节 假 设 读者 是 在 Ubuntu 或 Mac 环 境 下 进行 学 习 的 。 下 面 的 步骤 仅 供 Windows 用 户 参 考 ， 但 在 实际 操作 时 可 能 需要 稍 作 修 改 。 





1. 安 装 Python3 


在 Ubuntu 下 安装 Python3， 只 需要 执行 下 面 的 操作 即 可 : 





sudo apt-get install Python3 python3-pip Python3-dev build-essential 





在 Mac 下 利用 Homebrew 安 装 Python3， 只 需要 执行 下 面 的 操作 即 可 : 





brew install python3 





2. 安 装 Scikit-learn 


这 里 通过 Python 的 Pip 配 置 文件 的 方法 安装 Scikit-learn。 在 后 面 的 Docker 学 习 中 ， 可 以 看 到 这 样 的 配置 方法 非常 有 利于 自动 化 Docker 的 操作 : 





sudo pip3 install -r requirements.txt 























如 果 一 切 顺利 ， 完 成 上 面 的 操作 以 后 ， 就 可 以 启动 Python3， 并 且 调 用 Pandas 了 ， 命 令 如 下 : 











Python3 
>>> import sklearn 





4.3 Scikit-learn 的 主要 模块 


截至 本 书写 作 之 时 ，Scikit-learn 已 经 包含 了 数 十 个 功能 强大 的 模块 ， 涵 盖 了 基本 的 机 器 学 习 建 模 、 数 据 的 处 理 、 变 量 选择 、 模 型 自动 化 等 多 个 方面 。 本 节 将 按照 用 途 对 这 些 模块 进行 分 类 ， 以 做 介绍 。 
同时 本 节 还 会 介绍 机 器 学 习 研究 中 常用 的 一 些 数据 集 ， 建 议 大 家 仔细 阅读 。 























4.3.1 监督 式 、 非 监督 式 机 器 学 习 








现今 主流 的 监督 式 机 器 学 习 和 非 监督 式 机 器 学 习 包 都 已 经 包含 在 了 Scikit-learn 中 。 由 于 其 模块 使 用 方法 非常 标准 化 ， 因 此 这 里 统一 采用 表 的 形式 对 其 进行 介绍 。 表 4-1 中 列 出 了 现今 常用 的 Scikit-learn 
机 器 学 习 模块 中 ]。 














这 些 模块 中 的 功能 都 非常 强大 ， 不 少 相 关 图 书 已 经 对 其 进行 了 非常 完备 的 介绍 ， 这 里 就 不 再 蓝 述 了 。 











那么 ， 如 何 知道 每 个 模块 都 有 什么 样 的 功能 呢 ? 通常 有 如 下 两 个 方法 。 
1. 查 阅 API 


可 以 通过 查阅 Scikit-learn 最 新 的 API 文 档 来 获得 最 新 的 功能 列表 。 例 如 通过 查阅 http://scikit-learn.org/stable/modules/classes.html#module-sklearn.neural_network， 可 以 了 解 到 
sklearn.neural_network 包 中 含有 BernoulliRBM ( 伯 努 利 限制 性 玻 尔 效 曼 机 ) 、MLPClassifier (多 层 神 经 网 络 分 类 器 ) 、MLPRegressor (多 层 神 经 网 络 回归 ) 三 大 模块 。 








表 4-1 Scikit-learn 中 包含 的 机 器 学 习 模 块 
模块 名 称 模块 内 容 机 器 学 习 类 别 


sklearn.cluster 韭 监督 式 机 器 学 习 
sklearn.manifold learning 非 监督 式 机 器 学 三 
sklearn.decomposition 韭 监督 式 机 器 学 习 
sklearn.emsemble 监督 式 机 器 学 半 
sklearn.gaussian process 监督 式 机 器 学 习 
sklearn.linear model 监督 式 机 器 学 习 


sklearn.mixture 高 斯 混合 模型 监督 式 机 器 学 三 





模块 名 称 机 器 学 习 类 别 
sklearn.naive bayes 监督 式 机 器 学 习 
sklearn.neighbors 监督 式 机 器 学 习 
sklearn.neural network 监督 式 机 器 学 习 


sklearn.tree 决策 树 监督 式 机 顺 学 习 


2. 命 令 行 查阅 


也 可 以 通过 命令 行 查阅 当前 安装 模块 中 的 具体 内 容 。 例 如 ， 我 们 想 要 了 解决 策 树 模块 的 具体 内 容 ， 可 以 进行 如 下 操作 : 





>>> from sklearn import tree 

>>> dir (tree) 

['DecisionTreeClassifier', 'DecisionTreeRegressor', 
'ExtraTreeClassifier', 'ExtraTreeRegressor', 

3 Ft 

' name "六 " package '; -path ': "_ criterion'; 
'_splitter', ' tree', ' utils', 'export', 

'export graphviz', 'tree'] 














从 命令 行 的 输出 可 以 看 到 ，Scikit-learn 的 决策 树 模块 中 包含 了 DecisionTreeClassifier (决策 树 分 类 器 ) 、DecisionTreeRegressor (决策 树 回归 ) 、ExtraTreeClassifier (随机 分 叉 树 分 类 器 ) 、 
ExtraTreeRegressor (随机 分 叉 树 回归 ) 。 同 时 还 可 以 注意 到 export_graphviz 模 块 ， 该 模块 可 以 用 于 可 视 化 决策 树 模型 。 
































4.3.2 ” 建 模 函数 fit 和 predict 














监督 式 机 器 学 习 的 方法 层出不穷 ， 但 是 进行 监督 式 机 器 学 习 训练 的 模式 却 几乎 永远 都 是 一 样 的 。 总 的 来 说 ， 首 先 我 们 都 需要 训练 模型 ， 然 后 用 模型 对 感 兴趣 的 数据 进行 回归 或 分 类 ，Scikit-learn 的 作者 
早 就 意识 到 了 这 一 点 。 因 此 ， 所 有 监督 式 机 器 学 习 的 模块 都 有 两 个 通用 的 函数 : fit (训练 模型 )》 和 predict (预测 ) 。 


























下 面 以 机 器 学 习 中 最 经 典 的 M NIST 手 写 数字 数据 为 例 来 探讨 ft/predict 建 模 模式 户 。M NIST 手 写 数字 数据 收集 创建 于 1998 年 ， 其 中 包含 10，992 个 0 ~ 9 数字 手写 图 片 样本 ， 图 4-2 中 列 出 了 一 些 样本 。 




















每 个 观察 包含 图 片 为 灰 度 扫描 矩阵 转化 而 来 的 向 量 ， 并 且 配 有 相应 数字 的 标签 。 对 M NIST 手 写 数据 进行 分 类 的 任务 就 是 ， 根 据 扫描 图 像 数据 ， 判 断 实际 数字 到 底 是 0 到 9 中 的 哪 一 个 。 下 面 的 这 段 代码 是 
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逻辑 回归 对 














像 进行 分 类 (本 段 代码 也 在 本 章 的 示例 程序 中 https://github.com/real-time-machine-learning/2-scikit-learn-intro/blob/master/digits-linear-regression.py) : 





from sklearn import datasets 


from sklearn.linear model import LogisticRegression 


digits = datasets.10ad digits () 


n_samples = len(X digits) 

X train = X digits[:.9 * n samples] 
ytrain = y digits[:.9 * n_ samples] 
ytest = y digits[.9 * n samples:] 
model = LogisticRegression () 

## 训练 模型 

model .fit (X train, y train) 

## 进行 预测 

prediction = model .predict (xX test) 
Score = model.score(X test, y test) 
print (score) a | 
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同样 的 道理 ， 我 们 也 可 以 采 








K- 近 邻 的 方法 对 
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图 4-2 MNIST 手 写 数字 分 类 样本 
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像 进行 分 类 ， 可 以 看 到 





machine-learning/2-scikit-learn-intro/blob/master/digits-knn.py) 。 


上 面 两 个 方法 的 转换 ， 只 是 改变 了 mod 





from sklearn :import datasets 








逻辑 斩 











下 面 的 代码 与 前 面 采 上 





回 
































类 而 已 ， 两 个 方法 都 


el 变量 的 


from sklearn.neighbors import KNeighborsClassifier 


digits = datasets.1load digits () 

X digits = digits.data 

ydigits = digits.target 

n samples = len(X digits) 

Xtrain = X digits[:.9 * n samples] 
y train = y digits[:.9 * n samples] 
X test = xX digits[.9 * n samples:] 
ytest = y digits[.9 * n samples:] 
model = KNeighborsClassifier () 

## 训练 模型 

model .fit (X train, y train) 

## 进行 预测 加 

prediction = model .predict (X test) 
Score = model.score(X test, y test) 
print (score) 站 














了 fit 函 数 进行 模型 训练 ， 也 都 采 


DMONmHTWN™O 
DANMARNRUNYGS 
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归 的 代码 是 高 度 相似 的 (本 段 代码 也 在 本 章 示例 程序 之 中 https://github.com/real-time- 


了 Ppredict 函 数 进行 预测 ， 这 种 方法 非常 便于 在 实战 中 进行 模块 化 操作 ， 示 例 代 码 如 下 : 








同样 的 道理 ， 对 于 非 监督 式 学 习 ， 不 同 的 模型 在 具体 操作 模式 上 基本 是 类 似 的 ，Scikit-learn 的 作者 也 意识 到 了 这 个 特点 ， 所 以 sklearn.cluster.KMeans 等 模块 也 遵从 fit/predict 模 式 ， 进 行 非 监督 式 学 


习 。 


4.3.3 ”数据 预 处 理 


所 














模型 训练 是 如 此 简单 和 常规 化 ， 应 




















的 数据 。 如 果 读 者 有 幸 能 够 阅读 一 些 历史 悠久 公司 的 自动 化 机 器 学 习 代码 ， 就 会 发 现 建 模 程序 中 的 大 量 长 度 都 


表 4- 


机 器 学 习 的 从 业 人 员 80% 以 上 的 建 模 时 间 都 是 在 进行 数据 预 处 理 。 现 在 ， 机 











器 学 习 能 用 到 的 数据 形式 特别 多 ， 从 文字 、 
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于 了 数据 预 处 理 。 


数据 处 理 的 几 个 方面 及 sklearn.preprocessing 中 对 应 的 模块 





[ 


像 ， 到 数字 、 类 别 ， 都 可 以 成 为 机 器 学 习 








处 理 任 务 对 应 模块 


对 缺失 值 进行 补 全 Imputer 

对 数值 变量 进行 转换 FunctionTransformer, Normalizer, RobustScaler 
对 变量 进行 离散 化 LabelBinarizer, Binarizer, OneHotEncoder 

产生 多 项 式 特 征 数据 PolynomialFeatures 





数据 预 处 理 的 任务 主要 包含 数据 的 缺失 处 理 、 标 准 化 等 操作 。 表 4-2 包 含 了 所 有 预 处 理 的 模块 。 同 时 ，Scikit-learn 也 对 数据 预 处 理 的 操作 进行 了 标准 化 ， 当 然 ， 也 是 遵从 fit/transform 模 式 的 。 


(1) fit 〈 适 配 数据 ) 





首先 对 数据 进行 初步 分 析 ， 自 动 化 解析 出 所 需 的 参数 。 比 如 Normalizer 通 过 这 一 函数 对 数据 的 基本 统计 量 进行 计算 。 当 然 ， 对 于 PolynomialFeatures 等 模块 ， 这 一 函数 不 会 执行 任何 操作 。 


(2) transform (转化 数据 ) 





这 一 函数 对 数据 进行 了 具体 的 转化 。 





与 此 同时 ，Scikit-learn 还 对 图 像 、 文 字 等 数据 准备 了 专门 的 处 理 模 块 ， 这 些 功 能 主要 包含 在 sklearn.feature_extraction 模 块 中 ， 在 此 就 不 再 获 述 了 。 














4.3.4 ”自动 化 建 模 预测 Pipeline 








实际 应 用 中 监督 式 机 器 学 习 程 序 往往 需要 经 过 复杂 的 数据 预 处 理 和 模型 预测 两 个 步骤 。 这 样 写 出 来 的 代码 往往 会 包含 多 个 步骤 ， 支 离 破碎 ， 难 以 读 懂 ， 而 且 更 加 难以 维护 。 为 此 Scikit-learn 开 发 出 了 非 
常 方便 的 Pipeline 工 具 ， 将 数据 预 处 理 、 整 合 、 建 模 、 预 测 等 步骤 轻而易举 地 结合 在 了 一 起 。 最 后 得 到 的 结果 将 是 一 个 非常 易于 使 用 的 模型 及 其 数据 处 理 模块 。 






















































































下 面 就 用 一 个 例子 来 进行 详细 说 明 。 镶 尾 花 (Iris) 分 类 数据 是 机 器 学 习 界 中 另 一 个 经 典 的 数据 集合 BJ。 营 尾 花 数据 中 包含 了 150 株 芒 尾 花 的 花 儿 长度、 宽度 和 花 托 长 度 、 宽 度 。 另 外 这 尾 花 分 为 
Setosa，Versicolour，Virginica 三 个 亚 种， 如 图 4-3 所 示 。 莺 尾 花 分 类 数据 的 任务 就 是 利用 花 辩 花 托 数据 判断 其 亚 种 分 类 。 这 里 将 用 Pipeline 来 完成 建 模 工作 ， 这 部 分 代码 可 以 从 下 面 的 地 址 来 获 


得 https://github.com/real-time-machine-learning/2-scikit-learn-intro/blob/master/iris-pipeline.py, 
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图 4-3 ” 著 尾 花 的 三 类 亚 种 


Versicolor 





首先 需要 导入 所 需 的 模块 : 





from sklearn.pipeline import Pipeline, FeatureUnion 
from sklearn.svm import SVC 

from sklearn.datasets import load iris 

from sklearn.decomposition import PCA 

from sklearn.feature selection import SelectKBest 
from sklearn.externals import joblib 














Scikit-learn 已 经 自 带 常用 的 营 尾 花 数据 ， 我 们 可 用 下 面 的 命令 来 导入 它们 : 





iris = load iris() 
XxX, y = iris.data, iris.target 





然后 ， 对 数据 进行 预 处 理 。 这 里 将 会 加 入 预 处 理 模块 ， 而 暂时 不 会 对 数据 进行 直接 操作 。 这 里 的 数据 预 处 理 包 含 了 如 下 两 个 部 分 。 
“ 对 花 准 、 花 托 数 据 进行 主 成 分 分 析 、 取 得 最 显著 的 两 项 主 成 分 。 这 样 操作 是 鉴于 花 辩 、 花 托 的 长 宽 具 有 较 大 的 相关 性 ， 通 过 主 成 分 分 析 预 处 理 ， 可 以 降低 预测 自 变 量 的 维度 。 


“ 对 花 托 、 花 辩 长 宽 数 据 和 分 类 数据 进行 单 变量 因子 分 析 ， 选 取 最 为 显著 的 数据 。 这 样 操作 可 以 保留 其 中 和 分 类 最 为 线性 相关 的 数据 。 











最 后 再 用 FeatureUnion 模 块 将 上 面 的 预 处 理 结果 整合 起 来 ， 示 例 代码 如 下 : 











pca = PCA(n_ components=2) 
selection = SelectKBest (k=1) 
combined features = FeatureUnion([("pca", pca), 
("univ select", selection)]) 























最 后 ， 再 用 SVM 分 类 器 模块 对 营 尾 花 进行 分 类 : 





Svm = SVC (kernel="linear") 








注意 到 目前 为 止 ， 我 们 一 直 致 力 于 加 入 所 有 建 模 分 类 所 需 的 模块 ， 而 没有 碰 到 过 实际 的 数据 。 最 后 ， 将 上 面 所 属 的 所 有 模块 都 整合 在 Pipeline 中 ， 并 对 Pipeline 进 行 统一 建 模 训练 。 示 例 代 码 如 下 : 











Pipeline = Pipeline([ ("features", combined features)， ("svm", svm)]) 
pipeline.fit (X,y) 





























模型 训练 好 了 之 后 ， 就 可 以 直接 利用 训练 好 的 Pipeline 进 行 预 测 了 ， 非 常 方 便 。 同 时 ， 训 | 练 好 的 Pipeline 也 可 以 被 保存 导出 ， 用 于 生产 环境 中 : 











pipeline.predict (X) 
joblib.dump (pipeline, 'iris-pipeline.pkl') 





[由 最 新 的 列表 可 以 通过 查询 Scikit-learn API http://scikit-learn.org/stable/modules/ classes.html 来 获得 。 
[中 MNIST 的 官方 介绍 地 址 https://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+ oft Handwritten+Digits。 


[3] 官方 数据 介绍 地 址 为 https://archive.ics.uci.edu/ml/datasets/Iris 


4.4 利用 Scikit-learn 进 行 股票 价格 波动 预测 

















相信 通过 第 3 章 的 学 习 ， 大 家 已 经 非常 期 待 Scikit-learn 在 股票 数据 中 的 表现 了 。 本 章 将 会 继续 第 3 章 的 例子 ， 对 秒 级 股票 数据 预测 进行 研究 。 在 第 3 章 的 实例 中 ， 我 们 注意 到 了 相 邻 两 秒 之 间 股 票 报价 的 
变化 率 是 呈 负 相关 关系 的 ， 这 也 暗示 我 们 秒 级 股票 报价 可 能 是 具有 价值 回归 的 特点 的 。 毕 竟 一 个 公司 的 价值 很 少 会 在 一 秒 钟 之 间 发 生 剧烈 的 变化 ， 所 以 如 果 股 票 价格 发 生 大 幅 波动 ， 在 波动 之 后 的 短 时 间 
内 ， 其 价格 可 能 会 恢复 到 原先 所 具有 的 水 平 。 我 们 能 否 利用 这 样 的 性 质 进行 建 模 预 测 ， 并 且 得 到 超额 收益 呢 ? 下 面 就 来 拭目以待 。 





















































首先 导入 相关 模块 ， 并 且 将 matplotlib 的 作 图 风格 设置 为 ggplot 模 式 ， 示 例 代 码 如 下 : 

















import pandas as pd 

import numpy as np 

from sklearn.preprocessing import Imputer, PolynomialFeatures 

from sklearn.pipeline import Pipeline, FeatureUnion 

from sklearn.linear model import LinearRegression 

from sklearn.metrics import r2_ score, median absolute error 

from timeseriesutil import TimeSeriesDiff, TimeSeriesEmbedder, ColumExtractor 
import matplotlib.pyplot as plt 

import matplotlib 

matplotlib. style.use('ggplot') 


4.4.1 ”数据 导入 和 预 处 理 

















继续 采用 第 3 章 所 述 的 方法 ， 利 用 pandas 的 read_csv 模 块 导入 外 部 数据 ， 示 例 代 码 如 下 : 




















data = pd.read csv("aapl-trading-hour.csv", 
index col = 0) 














时 间 序列 建 模 数据 和 一 般 数据 有 所 不 同 。 一 般 数 据 往往 会 假设 不 同 观 测 点 之 间 是 独立 同 分 布 的 。 而 时 间 序 列 数据 中 ， 不 同时 间 节 点 的 数据 往往 都 具有 相关 性 ， 所 以 我 们 不 能 随机 地 筛选 训练 和 测试 数据 
集 。 为 此 ， 我 们 往往 会 按照 时 间 戳 对 样本 进行 划分 ， 将 先 发 生 的 数据 作为 训练 集 ， 将 后 发 生 的 数据 作为 测试 集 。 











下 面 的 代码 就 完成 了 上 述 的 划分 : 





y = data["Close"] .diff() / data["Close"].shift() 
Y[np.isnan(y) ]=0 

n total = data.shape[0] 

n train = int (np.ceil (n total*0.7)) 

data train = data[:n train] 

data test = data[n_ train:] 

ytrain = Y[10:n train] 

Y_test = y[(n train+10):] 





同时 ， 我 们 可 以 注意 到 ， 这 里 是 以 全 天 前 70% 的 数据 作为 训练 集 ， 后 面 的 数据 作为 测试 集 的 。 此 外 ， 我 们 还 准备 用 每 一 时 刻 前 10 秒 的 成 交 量 和 报价 数据 对 后 1 秒 的 股价 变化 进行 预测 。 





























4.4.2 ”编写 专 有 时 间 序 列 数据 预 处 理 模块 


























前 面 介绍 Scikit-learn 包 含 了 丰富 的 数据 预 处 理 模 块 。 如 果 有 需要 ， 我 们 怎么 样 才 能 加 入 自己 需要 的 专 有 模块 呢 ? 其 实 很 简单 ， 在 timeseriesutil.py 文 件 中 加 入 三 个 时 间 序 列 建 模 专用 模块 。 在 本 书写 作 
的 同时 ， 笔 者 与 Scikit-learn 的 作者 取得 了 联系 ， 得 知 这 些 模块 可 能 会 被 加 入 到 Scikit-learn 中 ， 成 为 官方 模块 。 


























1. 从 Pandas DataFrame 中 抽取 特定 丈 















































Scikit-learn 设 计 之 初 是 假设 所 有 自 变量 都 已 经 整理 好 并 放 在 一 个 和 矩阵 中 ， 和 矩阵 中 的 所 有 元 素 都 是 数值 。Scikit-learn 还 假设 所 有 自 变量 的 来 源 都 是 单一 的 ， 所 有 预 处 理工 作 都 可 以 直接 应 用 在 所 有 自 变量 





















































这 样 的 假设 在 大 规模 应 用 之 后 显然 已 经 不 成 立 了 。 例 如 我 们 往往 会 采用 Pandas 数 据 表 DataFrame 作 为 建 模 预测 的 自 变 量 集 合 ， 而 且 数据 表 中 每 个 列 的 类 型 都 可 能 不 一 样 ， 需 要 进行 的 处 理 也 不 一 样 。 


















































这 样 我 们 就 需要 有 模块 可 以 从 数据 来 源 (Pandas 数 据 表 ) 中 抽取 所 需要 的 列 。 下 面 的 ColumnExtractor 模 块 就 可 以 从 每 个 Scikit-learn 数 据 表 中 抽取 对 应 的 列 ， 以 供 后 续 操 作 : 











class ColumExtractor (BaseEstimator, TransformerMixin): 
def _init (self, column name): 
self.column name = column name 
def fit(self, X, y=None): 
return self 
def transform(self, X, y=None): 
return X[self.column name] 





2. 对 时 间 序 列 进行 差分 





对 时 间 序列 进行 差分 是 时 间 序列 建 模 的 一 个 基本 操作 ， 差 分 操作 试图 求 得 相 邻 K 个 时 间 段 数值 之 差 。 通 过 差分 ， 往 往 可 以 得 到 变化 率 等 数据 。 据 此 这 里 可 以 得 到 TimeSeriesDiff 模 块 : 

















Class TimeSeriesDiff (BaseEstimator, TransformerMixin): 

def _ init (self, k=1): 
self.k=k 

def fit(self, X, y=None): 
return self 

def transform(self, X, y=None): 
if type(X) is pd.core.frame.DataFrame or type (X) is pd.core.series.Series: 
return X.diff (self.k) / XxX.shift (self.k) 


else: 
raise "Have to be a pandas data frame or Series object!" 





3. 将 时 间 序 列 转换 为 列表 模式 














我 们 要 对 时 间 序 列 进行 自 回归 操作 ， 往 往 需要 将 数据 转换 为 常规 监督 式 学 习 中 列表 的 模式 。 这 里 列表 中 的 每 一 行 均 代 表 每 个 时 间 点 之 前 若干 秒 所 能 得 到 的 所 有 数据 。 这 样 的 转换 称 为 时 间 序 列 嵌入 
(embedding) 。 我 们 可 以 很 容易 地 定义 下 面 这 样 的 谋 入 函数 : 














def embed time series(x, k): 
n = len (x) 
if k >= n: 
raise "Can not deal with k greater than the length of x" 
output x = list(map (lambda i: list(x[i: (i+k)]), 
range (0, n-k))) 
return np.array (output x) 





也 可 以 很 简单 地 将 上 面 的 函数 模块 化 ， 得 到 TimeSeriesEmbedder 模 块 : 


Class TimeSeriesEmbedder (BaseEstimator, TransformerMixin): 
def init (self, k): 
self.k=k 
def fit(self, X, y= None): 
return self 
def transform(self, X, y = None): 
return embed time series(X, self.k) 





4.4.3 ”利用 Pipeline 进 行 建 模 


模块 都 准备 好 了 之 后 ， 我 们 只 需要 将 所 有 的 模块 都 整合 起 来 ， 形 成 一 个 Pipeline， 即 可 进行 建 模 训练 和 预测 了 。 下 面 的 代码 中 ， 我 们 建立 了 名 为 Pipeline 的 对 象 ， 其 中 包含 四 个 预 处 理 步骤 和 一 个 预测 步 
骤 。 





进行 预 处 理 步骤 时 ， 首 先 会 从 数据 来 源 中 抽取 每 秒 收盘 价 (ColumnExtractor) ， 然 后 会 对 收盘 价 进行 差分 ， 得 到 变化 率 (TimeSeriesDiff) ， 并 且 将 变化 率 结果 整理 成 列 数 为 10 的 矩阵 
(TimeseriesEmbedder) ， 由 于 要 进行 差分 操作 ， 因 此 会 在 因 变 量 中 引入 一 个 缺失 记录 ， 不 过 ， 可 以 用 Imputer 模 块 对 其 进行 补 全 。 之 后 ， 即 可 通过 线性 回归 对 未 来 变化 率 进行 预测 : 















































Pipeline = Pipeline([("ColumnEx"，ColurmnExtractor ("Close") )， 
("Diff", TimeSeriesDiff()), 
("Embed", TimeSeriesEmbedder (10)), 
("ImputerNA", Imputer()), 
("LinReg", LinearRegression())]) 





只 需要 如 下 两 行 代码 即 可 通过 Pipeline 训 | 练 模型 获得 结果 : 





pipeline.fit (data train, y train) 
y_pred = pipeline.predict (data test) 





4.4.4 ”评价 建 模 效果 
建 模 预测 的 效果 怎么 样 》 我 们 可 以 通过 统计 量 和 实际 业务 效果 两 方面 来 进行 评价 。 


统计 量 方面 ， 我 们 可 以 通过 R2 来 判断 预测 结果 对 实际 变化 的 解释 情况 〈r2_score) ， 示 例 代码 如 下 : 








Pirint (r2 scorel(ly test, y pred)) 
>>> 0.0337101433762 








可 以 看 到 在 波动 变化 中 ， 模 型 只 解释 了 3% 的 变化 。 但 是 不 要 气 包 ， 在 高 频 交 易 中 ， 每 一 笔 交易 的 利润 往往 都 会 很 小 ， 但 是 只 需要 长 期 交易 ， 积 少 成 多 ， 就 会 有 显著 的 超额 收益 。 





通过 下 面 的 代码 ， 我 们 可 以 求 得 每 一 笔 交 易 的 理论 收益 cc 和 累计 收益 cumulative_return : 





cumulative return: 
cc = np.sign(y pred)*y test 











cumulative return = (cc+1) .cumprod () 

cumulative return.plot() 

plt.show() 

从 图 4-4 中 可 看 出 ， 采 用 该 策略 可 能 的 累计 收益 还 是 非常 可 观 的 ， 在 当日 实现 了 7.6% 的 理论 收益 。 
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4.4.5 引入 成 交 量 和 高 维 交叉 项 进 
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图 4-4 利用 简单 线性 模型 对 苹果 股价 变化 进行 预测 的 理论 收益 


行 建 模 





前 面 是 利用 股票 报价 的 变化 进行 做 自 回 归 ， 对 未 来 股票 价格 变化 进行 预测 。 已 有 计量 经 济 学 文献 证 明 ， 成 交 量 和 股价 变化 也 是 具有 显著 性 关系 的 。 本 节 将 会 引入 成 交 量 数据 作为 预测 
时 ， 股 价 变化 各 因子 之 间 往 往 会 具有 非 线性 关系 ， 为 此 ， 我 们 引入 高 阶 变量 进行 预测 。 




















因为 这 里 需要 引入 成 交 量 和 历史 报价 变化 率 两 个 因子 ， 所 以 需要 建立 两 个 Pipeline 分 别 对 其 进行 预 处 理 。 


下 面 历史 报价 变化 Pipeline 沿 用 了 4.4.4 节 中 收盘 价 的 Pipeline， 示 例 代 码 如 下 : 


因子 之 一 。 





与 此 同 





pipeline closing price = Pipeline([ ("ColumnEx", ColumnExtractor("Close")), 


("Diff", TimeSeriesDiff()), 
("Embed", TimeSeriesEmbedder (10)), 
("ImputerNA", Imputer())]) 





可 采用 类 似 的 方法 建立 成 交 量变 化 Pipeline: 





Pipeline volume = Pipeline([("ColumnEx"，ColumnExtractor ("Volume") )， 
加 ("Diff", TimeSeriesDiff()), 
("Embed", TimeSeriesEmbedder (10)), 
("ImputerNA", Imputer())]) 








现在 ， 利 用 FeatureUnion 模 块 来 整合 前 面 两 个 Pipeline， 可 得 到 所 有 自 变 量 合集 : 




















merged features = FeatureUnion([("ClosingPriceFeature", pipeline closing price), 


("VolumeFeature", pipeline volume)]) 





自 变 量 合集 merged_features 仍 然 可 以 得 到 处 理 ， 这 里 可 以 通过 PolynomialFeatures 模 块 加 入 成 交 量 和 报价 变化 之 间 的 交叉 项 和 二 阶 项 自 变量 





pipeline 2 = Pipeline([ ("MergedFeatures", merged features), 
("PolyFeature", PolynomialFeatures ()), 
("LinReg", LinearRegression() yy 





对 于 pipeline_ 2 对 象 ， 我 们 可 以 调用 fit 和 predict 函 数 对 其 进行 训练 和 预测 ， 所 得 的 理论 累计 收益 如 图 4-5 所 示 。 从 图 4-5 中 可 以 看 到 ， 引 入 成 交 量 和 高 阶 项 自 变量 的 模型 所 得 到 的 结果 ， 比 简单 的 线性 回 


归 更 为 优秀 ， 而 且 回 撤 也 得 到 大 大 降低 。 
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图 4-5 ”利用 更 新 后 的 预测 模型 对 苹果 股价 变化 进行 预测 的 理论 收益 


4.4.6 ”本 书 没有 告诉 你 的 





前 面 通过 对 苹果 公司 股票 秒 级 报价 的 预测 ， 我 们 学 习 了 Scikit-learn 的 各 种 主要 模块 。 在 本 书写 作 之 时 ，Scikit-learn 仍 然 处 于 活跃 的 开发 过 程 中 ， 笔 者 也 与 其 作者 进行 了 交流 ， 且 在 本 书 完稿 之 后 会 试图 
对 其 贡献 一 些 代码 。Scikit-learn 的 开发 框架 非常 灵活 ， 因 此 我 们 在 此 鼓励 有 能 力 的 读者 也 可 以 为 其 提 意 见 或 贡献 代码 站]。 












































相信 很 多 读者 看 到 这 里 都 会 对 高 频 交 易 、 量 化 金融 等 领域 产生 极 大 的 兴趣 。 我 们 需要 告 诚 读 者 ， 这 里 只 是 进行 了 理想 环境 下 的 建 模 ， 交 易 成 本 、 交 易 数据 失真 、 竞 争 对 手 操作 等 情况 都 没有 考虑 进去 。 
如 果 需 要 用 高 频 自动 化 交易 盈利 ， 以 上 都 是 必须 要 考虑 的 因素 。 由 于 本 书 的 着 力 点 在 机 器 学 习 上 ， 实 时 交易 的 问题 就 留待 以 后 有 机 会 再 分 享 了 。 我 们 利用 已 有 的 数据 ， 提 出 好 下 几 个 问题 供 读者 考虑 。 


















































“ 数据 延迟 测试 : 利用 上 面 训练 好 的 Pipeline， 进 行 一 次 预测 需要 多 长 时 间 ? 在 笔者 之 一 彭 河 森 的 电脑 上 需要 0.02 秒 (20 毫秒 ) ， 在 你 的 电脑 上 需要 多 长 时 间 ? 有 什么 办 法 可 以 让 这 样 的 运算 变 得 更 快 
吗 ? Scikit-learn 给 出 了 一 些 加 速 运 算 的 方法 (http://scikit-learn.org/stable/modules/computational_performance.html) 。 


“ 数据 失真 测试 : 在 训练 和 测试 数据 集 上 面 ， 我 们 都 使 用 了 每 秒 报价 的 收盘 价 。 但 是 实际 上 一 秒 钟 时 间 内 的 报价 可 能 有 很 多 种 ， 如 果 我 们 根据 每 秒 的 开盘 、 收 盘 、 最 高 、 最 低 价格 随机 产生 一 些 数 据 ， 
重新 训练 和 测试 模型 ， 仍 然 会 得 到 优良 的 结果 吗 ? 


“ 交易 策略 : 交易 策略 是 实际 盈利 的 关键 ， 我 们 限于 篇 幅 没有 进行 讨论 。 当 我 们 连续 预测 正确 或 预测 失误 的 时 候 ， 是 否 需要 进行 熔断 ， 停 止 交 易 ? 能 否 基于 上 面 预测 的 结果 ， 建 立 第 二 层 模 型 ， 来 指导 
交易 的 执行 ? 











我 们 鼓励 大 家 利用 各 行 各 业 的 数据 进行 实践 体会 ， 如 果 你 发 现 Scikit-learn 给 你 的 工作 带 来 了 方便 ， 请 在 本 章 的 Github 页 面 上 发 个 lssue， 与 大 家 分 享 一 下 心得 体会 让 。 








D Scikit-learn 官 方 Github 地 址 : https://github.com/scikit-learn/scikit-learn/。 


[2] https://github.com/real-time-machine-learning/2-scikit-learn-intro/issues。 


第 2 部 分 “实时 机 器 学 习 架 构 


图 第 5 章 。 实时 机 器 学 习 架 构 设计 
国 第 6 章 。 集群 部 署 工具 Docker 
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图 第 8 章 。 实战 数据 库 综 述 





国 第 9 章 。 实时 数据 监控 ELK 和 集群 
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第 5 章 “实时 机 器 学 习 架 构 设 计 


5.1 “设计 实时 机 器 学 习 架 构 的 四 个 要 点 


做 计算 机 技术 开发 的 人 往往 会 醉心 于 程序 的 实现 ， 对 于 系统 架构 的 设计 ， 大 多 是 到 了 实现 后 期 才 会 意识 到 。 实 际 上 ， 系 统 设计 的 合理 性 会 直接 影响 到 后 期 开发 上 线 的 工程 量 ， 是 决定 管理 人 员 成 就 感 、 
使 用 人 员 满 意 感 和 开发 人 员 幸 福 感 的 关键 性 因素 。 

















在 进行 实时 机 器 学 习 架 构 设 计时 ， 需 要 注意 以 下 几 个 方面 。 





1 数据 通 量 和 存量 估计 





对 实时 机 器 学 习 系 统 的 容量 估计 主要 包含 通 量 和 存量 两 个 方面 。 通 量 代表 每 单位 时 间 中 系统 需要 处 理 的 数据 量 ， 往 往 以 QPS (Query Per Second， 每 秒 请 求 数 ) 来 进行 衡量 。 与 此 同时 ， 在 复杂 机 器 学 
习 建 模 和 数据 处 理 过 程 中 ,我 们 必须 对 存留 在 系统 中 的 数据 存量 进行 估计 ， 比 如 数据 库 中 每 个 表单 的 大 小 、 存 留 在 实时 数据 处 理 队列 中 的 数据 量 多 少 、 更 新 模型 所 需要 的 数据 量 等 。 














2. 响 应 延迟 








能 和 否 在 需要 的 时 间 内 对 请 求 进行 回应 是 实时 机 器 学 习 系统 是 否 成 功 的 关键 。 电 商 、 金 融 、 网 游 等 领域 对 于 响应 延迟 均 具 有 严格 的 要 求 。 某 全 球 电 商 机 构 曾经 做 出 过 估计 ， 网 页 相应 每 延迟 100 毫 秒 ， 公 
年 收入 就 减少 上 干 万 美元 。 与 此 同时 ,物流 、 票 务 等 领域 虽然 对 实时 数据 处 理 也 有 和 需求， 但 是 对 延迟 的 要 求 就 没有 这 么 严 苛 ， 往 往 上 一 秒 甚至 分 钟 的 延迟 都 是 在 可 接受 的 范围 之 内 的 。 
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3. 和 已 有 其 他 系统 之 间 的 关系 














在 现实 环境 下 ， 计 算 机 架构 很 少 会 独立 于 其 他 系统 而 存在 。 在 设计 一 个 实时 机 器 学 习 服 务 的 时 候 就 需要 将 已 有 的 系统 考虑 进来 。 需 要 考虑 的 方面 具体 如 下 。 





“ 对 已 有 系统 和 基础 设施 的 依赖 ， 这 决定 了 新 系统 的 稳定 性 及 响应 时 间 的 长 短 。 


:如果 新 的 实时 机 器 学 习 系 统 将 会 取代 老 系 统 ， 那 么 我 们 还 需 考虑 迁移 的 难度 和 可 行 性 。 现 今 很 多 公司 的 老 旧 系统 都 装载 着 公司 从 创始 之 初 积累 下 来 的 最 重要 的 数据 。 从 陈旧 老 系统 里 面 迁 移 数据 到 新 
系统 里 面 ， 难 度 往往 会 随 着 时 间 的 推移 而 不 断 加 大 ; 过 了 某 个 临界 点 ， 往 往 就 会 无 法 迁移 ， 那 么 只 能 不 断 聘 人 维护 老 旧 系统 ， 而 专门 为 其 开发 专 有 机 器 学 习 环境 。 笔 者 供职 过 的 几 个 企业 或 多 或 少 都 遇 到 过 
这 样 的 问题 。 


4 .系统 带 来 的 意义 

















不 管 是 大 型 企业 还 是 小 型 初创 公司 ， 弄 清 实 时 机 器 学 习 架 构 的 实现 意义 往往 是 最 重要 的 一 点 。 这 个 架构 能 否 为 组 织带 来 收益 ”这 个 架构 已 经 耗 时 两 个 星期 了 ， 还 需要 三 个 星期 的 投入 ， 继 续 下 去 是 否 有 
意义 ? 在 投入 大 量 时 间 、 金 钱 和 人 力 实现 一 个 机 器 学 习 项 目 时 ， 其 设计 和 开发 人 员 往 往 会 受到 来 自 于 同事 、 上 级 、 甚 至 家 人 的 不 断 质疑 。 明 白 自己 研发 的 系统 将 能 带 来 的 意义 ， 并 且 熟 记 于 心 ， 才 能 不 停 地 
画 好 大 饼 ， 说 服 领导 、 同 事 继续 支持 自己 的 工作 。 同 时 只 有 拥有 强大 的 意志 力 ， 不 忘 自己 的 初 心 ， 才 能 将 一 个 系统 做 好 ， 达 成 最 初 的 愿望 。 













































































对 于 很 多 组 织 来 说 ， 在 上 马 一 个 实时 机 器 学 习 处 理 系 统 的 时 候 ， 上 面 的 四 点 问题 可 以 进行 一 次 深刻 的 架构 分 析 讨 论 。 这 对 项 目的 进行 和 细节 的 沟通 具有 重要 的 意义 。 















































本 章 着 重 讲述 的 是 系统 架构 基础 。 按 照 使 用 场景 和 拓扑 结构 总 结 起 来 ， 实 时 机 器 学 习 系统 主要 分 为 三 种 ， 分 别 是 瀑布 流 架构 、 并 行 前 端 架构 和 实时 更 新 混合 架构 ，5.3 节 会 对 此 进行 详细 介绍 。 这 里 将 按 
照 适 用 场景 和 主要 成 分 进行 介绍 。 
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5.1 设计 实时 机 器 学 习 架 构 的 四 个 要 点 


做 计算 机 技术 开发 的 人 往往 会 醉心 于 程序 的 实现 ， 对 于 系统 架构 的 设计 ， 大 多 是 到 了 实现 后 期 才 会 意识 到 。 实 际 上 ， 系 统 设计 的 合理 性 会 直接 影响 到 后 期 开发 上 线 的 工程 量 ， 是 决定 管理 人 员 成 就 感 、 
使 用 人 员 满意 感 和 开发 人 员 幸 福 感 的 关键 性 因素 。 




















在 进行 实时 机 器 学 习 架 构 设计 时 ， 需 要 注意 以 下 几 个 方面 。 





1 .数据 通 量 和 存量 估计 








对 实时 机 器 学 习 系统 的 容量 估计 主要 包含 通 量 和 存量 两 个 方面 。 通 量 代表 每 单位 时 间 中 系统 需要 处 理 的 数据 量 ， 往 往 以 QPS (Query Per Second， 每 秒 请 求 数 ) 来 进行 衡量 。 与 此 同时 ， 在 复杂 机 器 学 
习 建 模 和 数据 处 理 过 程 中 ， 我 们 必须 对 存留 在 系统 中 的 数据 存量 进行 估计 ， 比 如 数据 库 中 每 个 表单 的 大 小 、 存 留 在 实时 数据 处 理 队列 中 的 数据 量 多 少 、 更 新 模型 所 需要 的 数据 量 等 。 




















2. 响 应 延迟 








能 和 否 在 需要 的 时 间 内 对 请 求 进行 回应 是 实时 机 器 学 习 系统 是 否 成 功 的 关键 。 电 商 、 金 融 、 网 游 等 领域 对 于 响应 延迟 均 具有 严格 的 要 求 。 某 全 球 电 商 机 构 曾经 做 出 过 估计 ， 网 页 相应 每 延迟 100 毫 秒 ， 公 
年 收入 就 减少 上 干 万 美元 。 与 此 同时 ,物流 、 票 务 等 领域 虽然 对 实时 数据 处 理 也 有 和 需求， 但 是 对 延迟 的 要 求 就 没有 这 么 严 蔡 ,往往 上 一 秒 甚至 分 钟 的 延迟 都 是 在 可 接受 的 范围 之 内 的 。 
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3. 和 已 有 其 他 系统 之 间 的 关系 

















在 现实 环境 下 ， 计 算 机 架构 很 少 会 独立 于 其 他 系统 而 存在 。 在 设计 一 个 实时 机 器 学 习 服 务 的 时 候 就 需要 将 已 有 的 系统 考虑 进来 。 需 要 考虑 的 方面 具体 如 下 。 





“ 对 已 有 系统 和 基础 设施 的 依赖 ， 这 决定 了 新 系统 的 稳定 性 及 响应 时 间 的 长 短 。 


. 如 果 新 的 实时 机 器 学 习 系统 将 会 取代 老 系统 ， 那 么 我 们 还 需 考虑 迁移 的 难度 和 可 行 性 。 现 今 很 多 公司 的 老 旧 系 统 都 装载 着 公司 从 创始 之 初 积累 下 来 的 最 重要 的 数据 。 从 陈旧 老 系统 里 面 迁 移 数据 到 新 
系统 里 面 ， 难 度 往往 会 随 着 时 间 的 推移 而 不 断 加 大 ; 过 了 某 个 临界 点 ， 往 往 就 会 无 法 迁移 ， 那 么 只 能 不 断 聘 人 维护 老 旧 系统 ， 而 专门 为 其 开发 专 有 机 器 学 习 环 境 。 笔 者 供职 过 的 几 个 企业 或 多 或 少 都 遇 到 过 
这 样 的 问题 。 









































4. 系 统 带 来 的 意义 
不 管 是 大 型 企业 还 是 小 型 初创 公司 ， 弄 清 实 时 机 器 学 习 架 构 的 实现 意义 往往 是 最 重要 的 一 点 。 这 个 架构 能 否 为 组 织带 来 收益 ”这 个 架构 已 经 耗 时 两 个 星期 了 ， 还 需要 三 个 星期 的 投入 ， 继 续 下 去 是 否 有 
意义 ?在 投入 大 量 时 间 、 人 金钱 和 人 力 实现 一 个 机 器 学 习 项 目 时 ， 其 设计 和 开发 人 员 往 往 会 受到 来 自 于 同事 、 上 级 、 甚 至 家 人 的 不 断 质疑 。 明 白 自 己 研发 的 系统 将 能 带 来 的 意义 ， 并 且 熟 记 于 心 ， 才 能 不 停 地 


























画 好 大 饼 ， 说 服 领导 、 同 事 继续 支持 自己 的 工作 。 同 时 只 有 拥有 强大 的 意志 力 ， 不 忘 自己 的 初 心 ， 才 能 将 一 个 系统 做 好 ， 达 成 最 初 的 愿望。 




















对 于 很 多 组 织 来 说， 在 上 马 一 个 实时 机 器 学 习 处 理 系统 的 时 候 ， 上 面 的 四 点 问题 可 以 进行 一 次 深刻 的 架构 分 析 讨论 。 这 对 项 目的 进行 和 细节 的 沟通 具有 

















本 章 着 重 讲述 的 是 系统 架构 基础 。 按 照 使 用 场景 和 拓扑 结构 总 结 起 来 ， 实 时 机 器 学 习 系统 3 




















照 适用 场景 和 主要 成 分 进行 介绍 。 








5.2 ” Lambda 架构 和 主要 成 员 














通过 对 实时 机 器 学 习 和 数据 处 理 架构 多 年 工作 经 验 的 总 结 ， 现 今 计算 机 应 用 界 已 经 将 实时 架构 总 结 为 lambda 架构 这 样 一 个 概念 。Lambda 取 源 了 















































要 的 意义 。 











要 分 为 三 种 ， 分 别 是 瀑布 流 架 构 、 并 行 前 端 架构 和 实时 更 新 混合 架构 ，5.3 节 会 对 此 进行 详细 介绍 。 这 里 将 按 





希腊 字母 ， 在 计算 机 编程 语言 中 往往 对 应 着 面向 函数 编 











程 语言 中 的 未 命名 函数 。 面 向 函数 编程 (如 Clojure、Scala 等 ) 中 的 未 命名 函数 具有 无 状态 性 的 特点 ， 这 些 函 数 不 会 因为 处 理 数据 的 改变 而 发 生 改变 。 与 此 相对 应 ， 在 架构 设计 中 ， 每 个 组 成 部 分 也 遵循 无 
状态 性 的 思路 ， 除 了 数据 库 以 外 ， 数 据 的 处 理 不 会 直接 改变 每 个 架构 成 员 的 状态 。 所 以 久而久之 ， 这 样 的 架构 就 称 为 Lambda 架 构 。 




















Lambda 架 构 是 一 种 能 够 实时 处 理 大 量 数据 的 架构 范式 ， 它 的 设计 考虑 了 相应 延迟 、 处 理 通 量 及 高 容错 性 。 为 了 满足 实时 应 








快速 处 理 层 (streaming layer) 和 批 处理 层 (batch layer) 三 个 部 分 ， 这 三 个 部 分 将 按照 需求 有 机 地 整合 在 一 起 ， 协 | 


5.2.1 ”实时 响应 层 























的 要 求 ，Lambda 架 构 的 组 成 部 分 可 以 分 为 实时 响应 层 (serving layer) 、 
同 完成 机 器 学 习 和 数据 处 理 的 任务 。 





实时 响应 层 的 主要 任务 是 对 外 部 需求 快速 做 出 响应 。 例 如 ， 在 实时 股票 预测 系统 中 ， 快 速 做 出 趋势 预测 的 部 件 属于 实时 响应 











实时 响应 层 的 主要 元 素 包括 支持 快速 更 新 读 写 的 数据 库 (如 Redis、Druid 等 ) 和 可 以 进行 快速 响应 的 算法 服务 等 。 


5.2.2 ”快速 处 理 层 




















快速 处 理 层 的 主要 任务 是 软 实时 地 对 外 部 需求 做 出 响应 。 快 速 处 理 层 对 延迟 的 要 求 不 如 实时 响应 





屋 那 么 严格 ， 但 是 仍然 需要 在 短 时 间 内 对 数据 做 出 快速 
































慨 ; 在 电 商 推荐 系统 中 ， 对 


























预测 模型 更 新 的 部 件 属于 快速 处 理 层 ; 在 电 商 订单 处 理 系统 中 ， 对 交易 进行 防伪 甄别 也 属于 快速 处 理 层 。 这 些 部 件 都 有 实时 处 理 | 











快速 处 理 层 的 主要 元 素 是 由 各 种 流 处 理 平 台 构成 的 ， 如 Apache Spark、Storm 等 平台 都 是 现今 主流 的 快速 处 理 层 工具 。 


5.2.3 ” 批 处 理 层 











批 处 理 层 的 主要 任务 是 在 线 下 完成 大 量 数据 的 处 理 。 批 处 理 层 对 响应 延迟 的 要 求 最 弱 。 但 是 批 处 理 | 


























中 ， 在 后 台 对 策略 进行 回 测评 价 的 部 件 属于 批 处 理 层 ; 在 电 商 推荐 系统 中 ， 对 用 户 的 购买 数 




















批 处 理 层 的 主要 元 素 包 含 各 类 老牌 线 下 数据 处 理工 具 ， 如 MySQL、Apache Hadoop 等 。 


5.3 ”常用 的 实时 机 器 学 习 架 构 
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数据 最 为 全 面 ， 所 以 批 处 理 | 


户 做 出 实时 推荐 的 部 件 也 属于 实时 响应 


反应 。 例 如 ， 在 实时 股票 预测 系统 中 ， 进 行 实时 








的 需求 ， 但 是 允许 有 若干 秒 、 











届 进 行 汇总 ， 产 生 商 业 报表 的 元 素 也 








属于 批 处理 层 。 





Lambda 架 构 按照 处 理 的 速度 对 架构 的 各 个 部 分 进行 了 分 类 。 笔 者 根据 经 验 发 现 ， 实 时 机 器 学 习 架 构 的 结构 还 可 以 按照 信息 流动 的 方向 分 为 如 下 三 类 。 





5.3.1 “瀑布 流 架 构 








甚至 若干 分 钟 的 延迟 。 





层 产生 的 数据 结果 往往 具有 最 强 的 官方 性 。 例 如 ， 在 实时 股票 交易 系统 


瀑布 流 (cascading) 架构 里 面 的 信息 是 单 向 流动 的 ， 从 发 生地 到 完成 地 呈现 瀑布 般 从 上 到 下 的 流动 ， 有 时 候 会 进行 分 叉 和 汇总 (如 图 5-1 所 示 ) 。 在 该 架构 中 ， 实 时 机 器 学 习 架 构 主要 出 现在 重 后 台 的 





























应 用 中 ， 其 不 在 意 实 时 用 户 反馈 ， 而 更 重视 实时 对 数据 的 处 理 。 
































例如 ， 金 融 安 全 领域 ， 网 页 前 端 在 接受 用 户 指令 之 后 需要 利用 机 器 学 习 模型 进行 风险 分 类 。 风 险 分 类 的 结果 需 





























化 。 瀑 布 流 架构 就 适用 于 这 种 信息 从 前 台 到 后 台 单 向 流动 的 场景 。 
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图 5-1 

















处 理 集群 


机 各 学习 
处 理 集群 


行动 执行 
集群 


瀑布 流 架 构 的 主要 组 成 部 分 


和 历史 交易 系统 的 信息 结合 在 一 起 呈现 给 后 台 人 员 进 行 审批 汇总 ， 以 及 进行 数据 的 可 视 


















又 例如 ， 在 电 商 环境 中 ， 客 户 下 单 以 











局 。 








这 时 候 也 可 以 采用 瀑布 流 架构 进行 机 器 学 习 处 理 。 











图 5-1 是 一 个 典型 的 瀑布 流 系统 ， 主 要 由 作业 发 出 点 、 











的 时 候 缓冲 系统 的 压力 。 


瀑布 流 式 机 器 学 习 架 构 的 思想 类 似 于 修筑 水 坝 ， 数 





学 习 处 理 单元 的 稳定 运行 。 








与 此 同时 ， 为 了 能 够 及 时 完成 所 有 的 处 理 任务 ， 在 高 峰 时 段 不 造成 任务 塞车 的 
商都 对 此 提出 了 解决 方案 ,例如 亚马逊 云 服务 就 提出 了 AutoScaling 的 服务 ， 其 能 够 按照 需求 





后 需要 对 仓储 、 配 送 情 况 进 行 实 时 优化 排 布 ， 利 


处 理 队 列 、 处 理 单元 、 数 据 库 、 结 果 执 行 队列 和 结果 执行 单元 组 成 。 这 里 处 理 队列 和 结果 


居 作 业 产 生 了 速度 在 一 天 中 的 不 





























机 器 学 习 模型 对 运输 风险 进行 评估 。 配 送 优化 的 结果 不 


























本 书 的 第 6 章 到 第 9 章 将 会 介绍 对 应 瀑布 流 架构 的 主要 工具 

















自动 化 地 调整 服务 器 的 数量 ， 以 达到 最 优 资源 和 效率 配置 [1]。 



































瀑布 流 式 架构 工具 主要 有 Docker、RabbitMQ 和 Elasticsearch 等 。 





和 实例 ， 涉 及 的 常 








5.3.2 并行 响应 架构 


据 笔者 的 经 验 ， 这 种 应 























并 行 前 端 (parallel frontend) 架构 主要 
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主要 在 于 利 








并 行 前 端 架构 


步 处 理 。 


a 























系统 将 以 异步 的 方式 完成 对 数据 日 志 等 任务 的 处 理 。 


yourself， 不 要 各 


作业 出 发 点 负载 均衡 







善于 观察 的 读者 大 概 已 经 意识 到 了 ， 为 并 行 前 端 服务 的 后 端 处 理 系 统 ， 其 实 可 以 
和 E 复 劳动 ) 的 准则 。 贯 穿 全 书 ， 我 们 会 看 到 同一 个 单元 被 不 断 地 再 次 利用 并 发 扬 光 大 。 





5.3.3 ”实时 更 新 模型 混合 架构 


特别 熟 答 的 功底 。 为 此 ， 实 时 更 新 模型 混合 架构 往往 也 只 会 


无 法 找到 相关 的 词 


改动 。 











上 











面 两 个 架构 都 主要 着 重 于 实时 














实时 更 新 模型 (real time updated machine learning model) 架构 旨 在 能 够 快速 地 更 新 机 器 学 习 模型 ， 对 环境 做 出 反应 。 机 器 学 习 模 型 的 实时 连续 性 更 新 在 技术 上 : 


于 解决 低 延 迟 要 求 下 大 量 机 器 学 习 的 要 求 。 在 多 
响应 并 反馈 ， 这 类 集群 会 包含 完全 相同 的 机 器 学 习 模型 以 实现 相应 的 操作 。 


并 行 前 端 架 构 的 主要 场景 涉及 网 站 、 视 频 、 广 告 、 社 交 和 游戏 等 非常 重视 
场景 下 ， 机 器 学 习 模型 每 提高 一 点 微弱 的 效果 ， 减 少 毫秒 级 的 延迟 ， 就 能 给 广告 商 带 来 百 万 级 的 收益 。 


负载 均衡 (load balancing) 将 机 器 学 习 处 理 任务 均匀 地 分 配 到 前 端 集群 的 


司 5-2 是 一 个 典型 的 并 行 前 端 架 构 ， 主 要 由 负载 均衡 、 机 器 学 习 处 理 单元 和 后 端 处 理 系统 三 部 分 构成 。 其 中 负载 均衡 和 并 行 的 机 器 学 习 处 理 单元 会 尽量 以 低 延 迟 来 











需要 在 极 短 的 时 间 内 做 出 响 








户 大 量 任务 同时 到 达 ， 并 




















直接 呈现 给 客户 ， 但 是 后 端 对 于 订单 的 实时 处 理 要 求 很 





执行 队列 的 存在 是 为 了 在 任务 完成 速度 小 于 任务 生成 速度 


时 刻 会 不 停 地 发 生 改 变 ， 所 以 必须 修建 “ 昔 水 池 ” 一 一 分 布 式 队列 ， 对 到 达 的 作业 和 产生 的 行动 进行 缓冲 ， 以 保证 机 器 


情况 ， 我 们 往往 会 在 一 天 之 中 为 机 器 学 习 处 理 单元 和 行动 执行 单元 对 应 安排 不 同 数量 的 服务 器 。 不 同 的 公司 和 云 服务 提供 


应 的 情况 下 ， 往 往 需要 通过 配置 服务 器 集群 来 快速 























微 秒 内 利 











户 体验 的 场景 。 例 如 现今 主流 的 广告 提供 商都 力求 在 若 

















机 器 学 习 模型 完成 对 





户 的 分 类 和 产品 的 推荐 。 根 













































机 器 学 习 
处 理 单元 1 


机 需 学 习 | F 一 ALUL ? e 

处 理 单元 2 Et 
机 顺 学 习 
处 理 单元 n 


图 5-2 并行 前 端 架 构 
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民 务 器 上。 同时 对 于 数据 处 理 、 记 录 等 不 需要 高 效 实时 处 理 的 任务 ， 通 过 分 布 式 队列 进行 缓冲 和 


反馈 机 器 学 习 模型 的 判断 ， 而 后 端 处 理 






后 端 


处 理 系统 
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5.3.1 节 里 面 提 到 的 瀑布 流 式 机 器 学 习 架 构 来 进行 设计 。 这 也 验证 了 计算 机 系统 设计 里 














反馈 和 对 作业 进行 处 理 ， 那 么 什么 样 的 架构 才能 不 断 进行 模型 更 新 ， 对 环境 做 出 实时 改变 呢 ? 本 节 介 绍 的 实时 更 新 模型 混合 架构 将 会 对 


DRY (Do not repeat 


此 做 出 详细 的 解读 。 


























有 最 高 的 要 求 ， 在 理论 上 也 需要 


























例如 ， 现 今 很 多 对 冲 基 金利 

















又 例如 ， 实 时 新 闻 搜 索 一 直 是 搜索 引擎 界 的 难题 ， 就 连 微软 必 应 都 做 得 不 够 好 。 当 2014 年 9 月 微软 宣布 将 跳 过 Windows9 直 接 发 布 Windows10 的 时 候 ， 很 多 感 兴趣 的 
条 。 与 此 同时 ， 谷 歌 搜索 却 能 在 短 时 间 内 做 出 回应 ， 在 新 闻 发 布 半 个 小 时 之 后 就 呈现 出 了 Windows10 的 相关 新 闻 。 这 一 号 














图 


如 














机 器 学 习 模型 在 很 短 的 时 这 


， 另 外 一 方面 具有 瀑布 流 架 构 的 实时 建 模 系统 ， 根 据 实际 情况 实时 地 更 新 模型 。 


5-3 所 示 ， 实 时 更 新 混合 架构 与 并 行 前 端 系统 相 比 ， 最 大 的 不 同 之 处 在 于 其 


于 最 关键 的 场景 中 。 





司 


内 对 金融 市 场 走势 进行 预测 。 由 于 多 方 竞争 的 加 剧 ， 市 场 环境 往往 瞬息 万 变 ， 必 须 不 断 实 时 地 更 新 模型 ， 才 能 保证 长 期 收益 。 


























户 都 到 必 应 上 搜索 相关 信息 ， 却 




















件 也 成 为 了 搜索 引擎 界 的 笑柄 。 























有 自动 化 的 模型 部 署 单元 ， 可 以 实时 地 

















自动 化 部 署 模 型 。 这 一 改变 看 似 微小 ， 但 是 在 一 些 老 系 统 中 确实 


虽然 说 起 来 非常 复杂 ， 但 实际 上 实施 更 新 模型 混合 架构 就 是 前 面 提 到 的 瀑布 流 架构 和 并 行 前 段 架构 混搭 而 成 的 一 个 闭环 。 实 时 更 新 混合 模型 架构 一 方面 具有 并 行 前 端 架构 能 够 对 访问 请 求 做 出 快速 响 





属于 伤 筋 动 骨 的 




















比如 ， 有 些 企业 在 部 署 新 的 数据 和 程序 时 都 必须 经 过 代码 
求 ， 对 系统 代码 本 身 的 稳定 性 和 检测 系统 的 完备 性 就 提出 了 更 高 的 要 求 ， 否 则 ， 如 果 











查 ， 如 果 需 要 实时 更 新 模型 ， 就 必须 
因为 极端 情况 或 网 络 攻击 ， 很 容易 导致 模型 被 误导 ， 从 而 达 不 到 理想 的 效果 。 





另外 一 方 


面 实时 部 署 新 模型 这 一 要 
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图 5-3 ”实时 更 新 混合 架构 











[1] http://docs.aws.amazon.com/autoscaling/latest/userguide/auto-scaling-benefi ts.html。 


5.4 小 结 








本 章 所 介绍 的 架构 几乎 涵盖 了 现今 主流 的 实时 机 器 学 习 架 构 的 所 有 拓扑 结构 。 就 算 因为 业务 需求 ， 需 要 对 以 上 架构 进行 增 减 ， 我 们 在 熟悉 了 本 书 的 内 容 之 后 也 可 以 进行 游 轧 有余 的 操作 。 总 结 起 来 ， 设 
计 以 上 三 个 架构 的 主要 思想 具体 如 下 。 

















“无 状态 性 和 可 扩展 性 相辅相成 ， 或 者 用 英文 表示 为 statelessness and scalability come hand in hand。 所 谓 无 状态 性 (stateless) ， 就 是 指 机 器 学 习 反 应 单元 在 对 数据 进行 处 理 之 后 ， 对 服务 器 本 身 不 会 产生 任 
何 变化 ， 数 据 、 日 志 等 都 直接 传输 到 了 数据 库 或 分 布 式 队列 中 进行 处 理 ， 极 大 地 消灭 了 延迟 。 为 了 对 需求 数量 的 变化 做 出 实时 反应 (scalability) ， 需 要 实时 增加 或 减少 服务 器 ， 所 以 服务 器 上 除了 部 署 的 模 
型 和 程序 ， 不 应 该 再 存储 任何 其 他 的 信息 。 

善 用 分 布 式 队列 。 分 布 式 队列 可 以 将 随机 到 达 的 任务 存储 起 来 ， 让 实时 处 理 平台 按 顺 序 进行 处 理 ， 这 大 大 降低 了 服务 器 的 压力 ， 增 强 了 整个 系统 的 稳定 性 。 与 此 同时 ， 分 布 式 队列 常常 用 作 不 同 数据 

服务 间 数 据 中转 的 集散 地 ， 大 大 降低 了 开发 的 难度 。 

' 善 用 负载 均衡 。 在 大 型 机 时 代 ， 一 个 组 织 往 往 只 有 一 
作 。 现 今 分 布 式 系统 的 设计 理念 和 以 前 大 型 机 时 代 的 理念 
用 负载 均衡 和 并 行 系统 ， 来 处 理 高 并 发 状态 下 的 任务 。 


造价 昂贵 的 大 型 机 ， 程 序 员 们 不 断 练 就 “独门 武功 绝技 ”， 优 化 自己 的 算法 ， 好 让 这 台大 型 机 在 同步 处 理 大量 并 发 任务 的 时 候 还 能 够 正常 工 
不 同 。 现 代 分 布 式 系统 的 设计 理念 认为 ， 我 们 的 程序 都 是 不 完美 的 ， 快 速 业务 发 展 的 需要 让 我 们 只 能 开发 出 最 初 可 用 的 产品 ， 为 此 我 们 只 能 使 


全 
全 
完全 























第 6 章 将 介绍 前 面 提 到 的 实时 机 器 学 习 系统 的 常用 工具 。 我 们 将 着 力 于 介绍 实时 机 器 学 习 系统 中 各 个 常用 的 工具 。 现 今 Docker、Spark、Elasticsearch 等 系统 仍然 在 快速 发 展 的 过 程 中 。 建 议 读 者 在 阅读 
之 后 多 加 练习 ， 并 且 访 问 对 应 的 网 页 以 了 解 最 新 的 功能 ， 建 议 大 家 在 一 台 Ubuntu 14.04 的 操作 系统 上 进行 学 习 和 实验 。 


















































Docker、Kafka、Sstorm、Elasticsearch 等 工具 都 是 当今 数据 处 理 、 机 器 学 习 和 分 布 式 系统 中 的 精华 。 如 果 需 要 深入 钻研 ， 每 个 工具 都 可 以 自 成 一 书 。 由 于 篇 幅 的 限制 ， 本 书 将 只 会 着 重 介绍 机 器 学 习 
相关 的 内 容 。 对 于 服务 器 配置 、 网 络 优化 等 课题 ， 每 一 节 的 后 面 都 提供 了 相关 的 链接 ， 供 读者 参阅 。 在 本 书 末尾 的 实时 机 器 学 习 设计 模式 章节 中 (第 10 章 ) ， 我 们 将 会 对 以 上 各 种 服务 应 用 的 排列 组 合 进行 
归纳 总 结 ， 得 到 常用 的 实时 机 器 学 习 设计 模式 。 













































































最 后 强烈 建议 所 有 读者 详细 阅读 Docker 介 绍 章节 (第 6 章 ) ， 除 非 您 是 非常 有 经 验 的 Docker 用 户 ， 同 时 建议 大 家 完成 该 章节 的 所 有 练习 。 其 他 的 很 多 机 器 学 习 读物 会 手把手 地 教 您 安装 各 个 软件 ， 配 置 
服务 器 。 这 样 的 工作 模式 在 实时 机 器 学 习 架 构 的 要 求 下 是 不 适用 的 。 每 个 实时 机 器 学 习 架 构 都 是 多 于 5 个 不 同 软件 环境 的 合体 ， 为 了 让 大 家 快速 上 手 ， 并 且 保 证 程序 的 正确 运行 ， 我 们 将 在 后 面 的 所 有 章节 中 
都 运用 Docker 对 软件 环境 进行 配置 ， 而 不 再 袭 述 其 安装 过 程 。 





















































第 6 章 ”集群 部 署 工 具 Docker 


6.1 ”Docker 的 前 世 今 生 
“ 如 何 将 已 经 写 好 的 程序 部 署 到 10 台 服务 器 上 ， 配 置 好 负载 均衡 ， 并 且 与 后 端 数 据 库 紧密 相连 ? 
“ 如 何在 请 求 数量 增加 的 时 候 将 服务 器 数量 增加 到 100 台 、1000 台 而 不 用 重 写 代 码 ? 


“ 如 何 才能 保证 在 开发 人 员 电 脑 上 能 够 正常 运行 的 程序 在 生产 服务 器 上 也 能 如 期 运行 ? 























Docker 生 态 系统 正 是 用 来 解决 上 面 这 些 问题 的 。Docker 出 现 以 前 ， 大 规模 部 署 代码 、 配 置 服务 器 集群 主要 由 以 下 两 个 方法 来 解决 。 





















































1) 主流 IT 公司 大 都 采用 脚本 程序 来 解决 ， 比 如 用 ssh 远 端 操作 等 ， 批 量 进行 服务 器 配置 安装 。 后 来 演化 出 了 Jenkins 等 部 署 工 具 用 于 批量 化 进行 服务 器 部 署 。 这 样 的 浆 端 也 是 显而易见 的 : 开发 人 员 和 生 
产 服务 器 上 的 配置 环境 可 能 会 有 所 不 同 ， 这 会 导致 程序 在 生产 环境 中 无 法 正常 运行 。 













































































2) 通过 Vagrant 等 虚拟 机 打包 程序 来 解决 。Vagrant 要 做 的 就 是 将 虚拟 机 配置 和 程序 部 署 打包 化 。 程 序 员 在 开发 环境 中 使 用 的 虚拟 机 配置 ， 会 直接 应 用 到 生产 环境 中 。 但 是 虚拟 机 一 般 都 需要 占用 大 量 
的 资源 ， 在 进行 复杂 系统 开发 的 时 候 仍然 会 显得 尾 大 不 掉 。 




















直到 2013 年 Docker 应 运 而 生 ， 才 有 了 更 好 的 解决 办 法 。Docker 是 一 个 开放 的 分 布 式 应 用 平台 ， 其 力求 能 够 实现 轻 量 级 虚拟 化 ， 以 加 速 分 布 式 软件 开发 的 进程 。 开 发 人 员 将 开发 放置 在 Docker 容 器 的 微 























服务 (Micro-service) 中 ， 每 个 微服 务 都 可 以 配置 自己 需要 的 运行 环境 和 软件 包 。 在 部 署 到 生产 环境 的 时 候 ， 一 个 完全 相同 的 微服 务 容器 将 会 被 部 署 到 生产 服务 器 上 ， 从 而 避免 因为 配置 不 同 造成 麻烦 。 








与 此 同时 ，Docker 容 器 与 虚拟 机 相 比 耗费 的 资源 也 更 少 。 图 6-1 展 示 了 Docker 和 虚拟 机 对 比 的 情况 ， 图 6-1a 是 在 一 台 服 务 器 上 同时 运行 多 个 服务 器 的 架构 ; 图 6-1b 是 在 一 台 服 务 器 上 同时 运行 多 个 
Docker 容 器 的 架构 。 
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图 6-1 Docker 和 虚拟 机 对 比 目 











在 生产 环境 中 部 署 虚拟 机 ， 大 量 资源 都 会 被 虚拟 机 操作 系统 文件 (Guest OS) 和 虚拟 环境 (Hyperviser) 所 耗费 。 与 此 相对 比 ， 在 生产 环境 中 使 用 Docker 容 器 ， 只 需要 安装 少量 的 Docker 引 警 文件 ， 
资源 利用 率 得 到 大 大 提高 。 在 入 门 级 笔记 本 电脑 上 轻松 运行 数 十 个 Docker 虚 拟 环境 完全 不 是 问题 。 

















到 2016 年 5 月 ， 领 导 Docker 开 发 的 公司 已 经 拥有 了 十 亿美 元 的 估 值 ， 同 时 ， 支 持 Docker 开 发 流程 的 软件 包 也 如 雨后春笋 般 相 继 出 现 。 本 书 的 软件 部 署 环境 配置 将 完全 依赖 于 Docker， 关 于 这 点 将 在 下 
面 几 节 中 详细 介绍 。 





[由 图片 来 源 : https://www. jayway.com/2015/03/21/a-not-very-short-introduction-to-docker/。 


第 6 章 ”集群 部 署 工 具 Docker 


6.1 ”Docker 的 前 世 今 生 
“ 如 何 将 已 经 写 好 的 程序 部 署 到 10 台 服务 器 上 ， 配 置 好 负载 均衡 ， 并 且 与 后 端 数 据 库 紧密 相连 ? 
“ 如 何在 请 求 数量 增加 的 时 候 将 服务 器 数量 增加 到 100 台 、1000 台 而 不 用 重 写 代码 ? 


“ 如 何 才能 保证 在 开发 人 员 电 脑 上 能 够 正常 运行 的 程序 在 生产 服务 器 上 也 能 如 期 运行 ? 








Docker 生 态 系统 正 是 用 来 解决 上 面 这 些 问题 的 。Docker 出 现 以 前 ， 大 规模 部 署 代码 、 配 置 服务 器 集群 主要 由 以 下 两 个 方法 来 解决 。 





























1) 主流 IT 公司 大 都 采用 脚本 程序 来 解决 ， 比 如 用 ssh 远 端 操作 等 ， 批 量 进行 服务 器 配置 安装 。 后 来 演化 出 了 Jenkins 等 部 署 工 具 用 于 批量 化 进行 服务 器 部 署 。 这 样 的 浆 端 也 是 显而易见 的 : 开发 人 员 和 生 
产 服务 器 上 的 配置 环境 可 能 会 有 所 不 同 ， 这 会 导致 程序 在 生产 环境 中 无 法 正常 运行 。 


















































2) 通过 Vagrant 等 虚拟 机 打包 程序 来 解决 。Vagrant 要 做 的 就 是 将 虚拟 机 配置 和 程序 部 署 打 包 化 。 程 序 员 在 开发 环境 中 使 用 的 虚拟 机 配置 ， 会 直接 应 用 到 生产 环境 中 。 但 是 虚拟 机 一 般 都 需要 占用 大 量 
的 资源 ， 在 进行 复杂 系统 开发 的 时 候 仍然 会 显得 尾 大 不 掉 。 





























直到 2013 年 Docker 应 运 而 生 ， 才 有 了 更 好 的 解决 办 法 。Docker 是 一 个 开放 的 分 布 式 应 用 平台 ， 其 力求 能 够 实现 轻 量 级 虚拟 化 ， 以 加 速 分 布 式 软件 开发 的 进程 。 开 发 人 员 将 开发 放置 在 Docker 容 器 的 微 
服务 (Micro-service) 中 ， 每 个 微服 务 都 可 以 配置 自己 需要 的 运行 环境 和 软件 包 。 在 部 署 到 生产 环境 的 时 候 ， 一 个 完全 相同 的 微服 务 容器 将 会 被 部 署 到 生产 服务 器 上 ， 从 而 避免 因为 配置 不 同 造成 麻烦 。 












































与 此 同时 ，Docker 容 器 与 虚拟 机 相 比 耗费 的 资源 也 更 少 。 图 6-1 展 示 了 Docker 和 虚拟 机 对 比 的 情况 ， 图 6-1a 是 在 一 台 服 务 器 上 同时 运行 多 个 服务 器 的 架构 ;图 6-1b 是 在 一 台 服 务 器 上 同时 运行 多 个 
Docker 容 器 的 架构 。 
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在 生产 环境 中 部 署 虚拟 机 ， 大 量 资源 都 会 被 虚拟 机 操作 系统 文件 (Guest OS) 和 虚拟 环境 (Hyperviser) 所 耗费 。 与 此 相对 比 ， 在 生产 环境 中 使 用 Docker 容 器 ， 只 需要 安装 少量 的 Docker 引 警 文件 ， 
资源 利用 率 得 到 大 大 提高 。 在 入 门 级 笔记 本 电脑 上 轻松 运行 数 十 个 Docker 虚 拟 环境 完全 不 是 问题 。 








到 2016 年 5 月 ， 领 导 Docker 开 发 的 公司 已 经 拥有 了 十 亿美 元 的 估 值 ， 同 时 ， 支 持 Docker 开 发 流程 的 软件 包 也 如 雨后春笋 般 相 继 出 现 。 本 书 的 软件 部 署 环境 配置 将 完全 依赖 于 Docker， 关 于 这 点 将 在 下 
面 几 节 中 详细 介绍 。 





[由 图 片 来 源 : https://www. jayway.com/2015/03/21/a-not-very-short-introduction-to-docker/。 


6.2 ”容器 虚拟 机 的 基本 组 成 部 分 





一 个 Docker 容 器 化 虚拟 机 分 为 虚拟 机 镜像 、 容 器 虚拟 机 、 网 络 配置 和 数据 存储 卷 标 四 个 方面 。Docker 引 擎 的 全 部 功能 都 围绕 着 管理 以 上 四 个 方面 来 进行 设计 。 在 后 面 的 例子 中 可 以 看 到 这 四 个 元 素 的 
定义 贯穿 了 所 有 Docker 容 器 虚拟 机 的 实例 ， 所 以 在 介绍 实际 操作 之 前 ， 我 们 先 来 介绍 一 下 它们 的 组 成 和 功能 。 


1. 虚 拟 机 镜像 





一 个 虚拟 机 镜像 (docker image) 是 一 个 只 读 的 模块 ， 该 模块 负责 定义 对 应 的 容器 虚拟 机 ， 包 括 虚拟 操作 环境 、 预 装 好 的 程序 、 配 置 等 。 例 如 ， 有 的 虚拟 机 镜像 (暂时 用 python-ubuntu 来 指 代 ) 是 
安装 好 Python 3.0 的 Ubuntu 操作 系统 ， 有 的 虚拟 机 是 配置 好 java 运行 环境 的 CentOSs 操 作 系统 。 由 于 虚拟 机 镜像 具有 只 读 性 ， 因 此 每 个 虚拟 机 镜像 均 可 以 用 于 产生 无 限 个 功能 、 内 容 完全 不 同 的 Docker 虚 
拟 机 。 所 以 我 们 可 以 把 虚拟 机 镜像 理解 成 一 个 容器 虚拟 机 定义 的 基础 。 








虚拟 机 镜像 具有 继承 性 ， 我 们 可 以 基于 一 个 虚拟 机 镜像 创建 另 一 个 虚拟 机 镜像 。 例 如 ， 我 们 可 以 基于 python-ubuntu 虚 拟 机 镜像 配置 安装 Scikit-learn， 安 装 好 该 组 件 的 虚拟 机 镜像 可 以 被 储存 起 来 ， 成 
为 sklearn-ubuntu 虚 拟 机 镜像 。 上 面 产 生 的 python-ubuntu 和 sklearn-ubuntu 虚 拟 机 都 可 以 被 独立 调用 ， 各 自 成 为 具有 不 同 功能 的 Docker 虚 拟 机 的 一 部 分 。 具 体 每 个 Docker 虚 拟 机 的 镜像 可 以 通过 
Docker 引 警 命令 行 和 Dockerfile 的 配置 来 实现 ， 这 点 将 在 后 文 (6.3 节 和 6.4 节 ) 详细 介绍 。 















































2. 容 器 虚拟 机 
一 个 Docker 容 器 虚拟 机 是 一 个 Docker 虚 拟 机 镜像 可 以 运行 的 实例 。 仅 仅 基于 一 个 Docker 虚 拟 机 镜像 ， 我 们 可 以 对 网 络 、 文 件 等 多 个 方面 进行 配置 ， 从 而 产生 出 多 个 不 同 的 容器 虚拟 机 。 
Docker 容 器 虚拟 机 可 以 像 传统 虚拟 机 实例 一 样 被 启动 、 停 止 、 移 动 或 删除 。 这 些 操作 都 可 以 通过 Docker 引 擎 和 相关 管理 程序 命令 行 来 完成 的 ，6.3 节 会 详细 介绍 。 


3. 网 络 配 置 























一 个 Docker 容 器 虚拟 机 的 网 络 配 置 主要 是 指 其 网 络 端口 的 开放 和 网 络 端口 在 宿主 机 上 的 映射 。 例 如 ， 对 于 一 个 虚拟 机 实例 ， 我 们 可 能 会 开放 80 端 口 作为 网 络 访问 接口 ， 该 虚拟 机 内 部 的 所 有 程序 都 会 通 
过 80 端 口 进行 反馈 ; 但 是 为 了 不 与 宿主 机 产生 冲突 ， 我 们 可 能 会 将 虚拟 机 上 的 80 端 口 映 射 到 宿主 机 的 9980 端 口上 。 所 有 外 部 服务 都 必须 通过 访问 宿主 机 的 9980 端 口 ， 来 访问 该 虚拟 机 实例 的 网 页 服务 。 





























4 数据 储存 卷 标 











我 们 往往 需要 在 Docker 容 器 虚拟 机 上 储存 程序 、 模 型 甚至 数据 库 内 容 等 信息 。 这 些 信息 可 能 来 自 于 其 他 容器 的 虚拟 机 镜像 ， 也 可 能 来 自 于 宿主 机 。 为 了 完成 数据 的 共享 、 读 写 ， 每 个 Docker 容 器 虚拟 
机 都 可 以 设置 数据 储存 卷 标 ， 以 实现 该 容器 虚拟 机 实例 和 其 他 服务 之 间 的 数据 共享 。 


























6.3 ”Docker 引 掌 命令 行 工 具 





Docker 引 擎 (Docker Engine) 是 最 早出 现 的 Docker 工 具 ，Docker 引 警 的 主要 用 途 是 进行 单个 虚拟 容器 环境 的 配置 和 运行 。 


6.3.1 Docker 引 擎 的 安装 








推荐 在 最 新 的 Ubuntu 长 期 使 用 版 (LTS) 上 安装 本 书 的 软件 环境 [1]， 这 里 以 Ubuntu 16.04 版 本 为 例 进行 讲解 ， 打 开 命令 行 之 后 ， 需 要 进行 以 下 操作 : 














# 更 新 Ubuntu 软件 源 内 容 

sudo apt-get update 

# 安装 Docker 引 擎 

sudo apt-get install docker-engine 
# 开始 运行 docker 引 擎 后 台 程 序 

sudo serivce docker start 

# 运行 一 个 虚拟 机 试 试看 吧 


sudo docker run hello-world 








如 果 一 切 顺 利 的 话 ， 那 么 最 后 一 个 命令 执行 完成 以 后 ， 会 出 现 若干 个 进度 条 ， 提 醒 Docker 引 擎 正在 从 远 端 服务 器 上 下 载 镜像 。 各 个 下 载 进度 完成 以 后 ， 会 运行 hello-world 镜 像 的 默认 程序 ， 出 现 以 下 
画面 ( 随 版 本 的 不 同 可 能 会 有 所 不 同 ) : 





Hello from Docker. 
This message shows that your installation appears to be working correctly. 





最 后 一 个 命令 发 生 了 什么 ?首先 你 电脑 里 面 的 Docker 引 警 运行 环境 从 远 端 服务 器 (Docker Hub) 上 下 载 了 一 份 名 为 hello-world 的 容器 虚拟 机 镜像 。 然 后 在 您 的 电脑 上 启动 这 个 容器 虚拟 机 ， 并 且 运 行 
配置 好 的 启动 程序 ， 打 印 出 了 以 上 字段 。 程 序 运 行 结束 之 后 ， 容 器 虚拟 机 将 自动 关闭 。 
































细心 的 读者 将 会 注意 到 ， 上 面 最 后 一 个 命令 用 了 sudo 来 获取 管理 员 权 限 。 一 般 的 容器 操作 都 要 用 到 管理 员 权 限 ， 显 然 这 不 是 安全 的 选择 ， 所 以 还 需要 将 你 的 当前 用 户 添加 到 docker 所 在 的 用 户 群 中 。 添 
加 命令 如 下 : 

















# 添加 名 为 docker 的 用 户 群 

sudo groupadd docker# 将 你 的 当前 用 户 添加 到 docker 用 户 群 中 
sudo usermod -aG docker [你 当前 的 用 户 名 ] 

# 退 出 当前 系统 ， 再 登入 ， 省 东 寺 候 届 可 以 不 用 go 执行 以 下 命令 了 


docker run hello-world 









6.3.2 ”Docker 引 擎 命令 行 的 基本 操作 








在 本 书写 作 之 时 ，Docker 引 警 仍 处 于 飞速 发 展 之 中 ，Docker 引 警 功能 强大 ， 需 要 一 本 书 的 篇 幅 才能 完全 囊括 。 这 里 主要 介绍 最 基本 的 Docker CLI (命令 行 接口 ，Command Line Interface，CLI) 操 
作 ， 以 完成 本 书 的 学 习 。 对 单个 Docker 虚 拟 机 进行 复杂 配置 时 ， 往 往 需要 通过 Dockerfile 配 置 文件 来 进行 ，6.4 节 会 对 此 进行 详细 介绍 。 














Docker 命 令 行 基本 操作 的 格式 如 下 : 





docker [ 子 命令 ] - [变量 旗 标 ， 可 选 ] [变量 名 ， 可 选 ] 

















当然 ， 最 便捷 的 快速 查阅 命令 行 可 用 指令 的 方法 是 : 





docker help 





上 面 的 命令 将 会 打印 出 一 系列 Docker 相 关 的 子 命令 。 包 括 本 节 将 更 详细 介绍 的 run、stop、kill、rm、rmi、ps、exec 等 命令 











使 用 docker[ 子 命令 ]--help 将 会 打印 出 每 个 子 命令 的 详细 信息 。 例 如 : 








docker run --help 





会 打印 出 跟 docker run 相 关 的 所 有 命令 行 信息 。 


下 面 以 几 个 简单 的 操作 例子 来 进行 讲解 。 首 先 重复 前 面 的 例子 ， 运 行 一 个 Docker 镜 像 ， 命 令 如 下 : 











docker run hello-world 


上 面 发 生 了 什么 事情 呢 ? 首先 Docker 会 查阅 本 地 镜像 ， 确 定 是 否 包 含 一 个 名 为 hello-world 的 虚拟 机 镜像 ， 如 果 不 存在 ， 那 么 Docker 引 警 会 到 远 端 Docker 服 务 器 中 下 载 一 个 新 的 hello-world 虚 拟 机 镜 
像 。 镜 像 下 载 完成 之 后 ， 会 按照 该 镜像 默认 的 设置 ， 打 印 出 hello world 的 信息 。 














当然 这 还 是 最 基本 的 操作 ， 下 面 让 我 们 运行 一 个 nginx 网 页 服务 来 试 试 看 ， 其 实 只 需要 运行 下 面 的 命令 即 可 : 














docker run -d -p 9080:80 --name webserver nginx 








运行 完成 后 ,我们 可 以 在 当前 电脑 的 浏览 器 中 访问 http://localhost:9080， 看 到 nginx 的 欢迎 信息 (如 图 6-2 所 示 ) 。 

















上 面 这 个 命令 发 生 了 什么 呢 ? 主要 包含 如 下 几 点 。 





“ 获取 镜像 : 这 里 运行 了 一 个 代号 为 nginx 的 Docker 庶 拟 机 镜像 ，Docker 引 擎 发 现 当 前 电脑 上 不 存在 该 镜像 ， 于 是 从 远 端 服务 器 上 下 载 了 该 镜像 。 


“ 命名 虚拟 机 : 通过 --name 标 签 将 该 运行 的 镜像 命名 为 webserver， 以 方便 后 面 的 操作 。 


Welcome to nginx! - Chromium 


Welcometonginx! x " 


< > © | 0 FEIT 





Welcome to nginx! 


If you see this page, the nginx web server is successfully installed and 
working. Further configuration is required. 


For online documentation and support please refer to nginx.org. 
Commercial support is available at nginx.com. 


Thank you for using nginx. 





图 6-2 ”通过 http://localhost: 9080 查 看 nginx 服 务 器 信息 
“ 端口 映射 : 默认 情况 下 ，nginx 将 会 通过 虚拟 机 的 80 号 端口 对 网 页 访问 做 出 响应 ， 我 们 通过 -p 标 签 ， 将 访问 端口 映射 到 宿主 机 的 9080 端 口上 。 


景 运行 模式 : 最 后 ， 通 过 -d 标 签 告诉 Docker 引 擎 在 后 台 运 行 这 个 虚拟 机 (daemon 模 式 ) 。 


这 


我 们 可 以 通过 下 面 ps 子 命令 查阅 正在 运行 的 容器 虚拟 机 : 





docker Ps 





以 上 命令 运行 完成 之 后 ， 可 以 看 到 一 系列 打印 的 信息 ， 包 括 前 面 创建 的 webserver 虚 拟 机 ， 如 下 : 





CONTAINER ID IMAGE COMMAND CREATED 
9efe7e95al16 nginx "nginx -g 'daemon off" 25 hours ago 





有 的 时 候 为 了 调试 或 出 于 好 玩 ， 需 要 在 正在 运行 的 虚拟 机 中 执行 一 些 命令 。 可 以 通过 exec 子 命令 在 已 经 运行 的 虚拟 机 中 进行 一 次 性 操作 : 





docker exec webserver ps -A 





上 面 这 个 命令 执行 完成 之 后 可 以 在 命令 行 中 打印 出 所 有 正在 运行 的 进程 ， 包 括 nginx 和 ps 本 身 ， 打 印信 息 如 下 : 





\$ docker exec webserver ps -A 


si TT TIME CMD 

1 芝 00:00:00 nginx 
8 % 00:00:00 nginx 
9 时 00:00:00 ps 





有 的 时 候 为 了 详细 排 错 ， 我 们 可 能 需要 “登录 ”到 | 该 虚拟 机 进行 交互 式 操作 ， 这 可 以 通过 -it 标 签 来 完成 ， 代 码 如 下 : 





docker exec -it webserver /bin/bash 





以 上 命令 执行 完成 之 后 ， 可 以 发 现 我 们 正在 webserver 的 root 命 令 行 下 ， 可 以 进行 各 种 交互 操作 ， 示 例 代码 如 下 : 





\$ docker exec -it webserver /bin/bash 
root@9efe7e95al16:/# rm -rf /bin 
root@9efe7e95al16:/# exit 





最 后 通过 exit 命 令 退出 。 


我 们 可 以 通过 stop 子 命令 终止 一 个 正在 运行 的 虚拟 机 : 





docker stop webserver 





那么 以 上 操作 是 否 代表 要 从 我 们 当前 的 系统 中 删除 虚拟 机 了 呢 ? 还 没有 ， 首 先 可 以 通过 : 





docker ps -a 








查阅 所 有 虚拟 机 ， 包 括 休眠 状态 下 的 虚拟 机 。 在 第 一 条 目 中 ， 我 们 可 以 看 到 该 虚拟 机 只 是 被 终止 了 ， 其 仍然 存在 于 当前 系统 中 : 





CONTAINER ID IMAGE COMMAND CREATED STATUS 
9efe7e95al16 nginx "nginx -g 'daemon off" 25hours ago FExited(0) 
e186503e735c hello-world "/bash echo hello" 27hours ago Created 











要 彻底 删除 该 虚拟 机 ， 可 以 使 用 下 面 的 命令 : 











docker rm webserver 





执行 完成 之 后 ， 我 们 可 以 发 现 webserver 虚 拟 机 不 再 存在 。 























前 面 介绍 了 一 个 Docker 虚 拟 机 镜像 可 以 用 于 产生 多 个 虚拟 机 ， 那 么 webserver 对 应 的 虚拟 机 镜像 nginx 该 如 何 删除 呢 ? 首先 可 以 用 images 子 命令 查阅 当前 系统 中 已 有 的 虚拟 机 镜像 : 























docker images 





然后 就 可 以 从 列表 中 看 到 我 们 刚才 操作 过 的 nginx 和 hello-world 镜 像 ， 如 下 : 





REPOSITORY TAG IMAGE ID CREATED 
Nginx latest 05a60462f8ba 2 days ago 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16480/0EBPS/Text/... 











最 后 ， 可 以 用 rmi 子 命令 删除 对 应 的 虚拟 机 镜像 : 














docker rmi webserver 





当然 ， 上 面 的 操作 都 是 最 基本 的 Docker 引 擎 命令 行 操 作 。 更 复杂 的 操作 往往 需要 通过 配置 文件 的 方法 来 完成 ，6.4 节 将 对 此 进行 详细 介绍 。 


[由 最 新 的 安装 指南 在 这 里 https://docs.docker.com/engine/installation/linux/ubuntulinux/。 


6.4 ”通过 Dockerfile 配 置 容器 虚拟 机 




















若 要 在 分 布 式 集群 中 自动 化 容器 虚拟 机 配置 ， 那 么 完全 依赖 命令 行 显然 不 能 达到 快速 开发 ， 易 于 调 错 的 标准 。 当 服务 器 配置 变 得 较为 复杂 时 ， 采 用 命令 行 就 会 显得 尾 大 不 掉 ， 而 且 容易 出 错 。 为 此 
Docker 的 开发 者 特意 创立 了 Dockerfile 标 准 ， 用 配置 文件 的 方法 完成 单个 容器 虚拟 机 的 配置 。 


























Dockerfile 是 Docker 容 器 化 虚拟 机 的 配置 文件 。 配 置 一 个 Docker 容 器 虚拟 机 ， 步 骤 非 常 直 观 ， 只 需要 在 一 个 文本 文件 (通常 名 为 Dockerfile) 中 配置 以 下 四 方面 的 内 容 即 可 。 














“ 镜像 基本 信息 


. 执行 程序 内 容 


. 网 络 链接 和 端口 


“ 与 宿主 机 共享 文件 的 方式 





以 上 字段 的 内 容 都 是 通过 FROM、EXPOSE、CMD、RUN 等 字段 来 执行 的 ， 我 们 将 在 下 面 通过 例子 进行 详细 介绍 。 














6.4.1 利用 Dockerfile 配 置 基本 容器 虚拟 机 

















既然 是 入 门 ， 那 么 当然 一 定 要 有 Hello World 啦 。 这 里 用 Dockerfile 配 置 第 一 个 虚拟 容器 镜像 ， 该 镜像 启动 之 后 会 说 Hello World， 执 行 完成 之 后 会 自动 关闭 。 镜 像 配 置 文件 (Dockerfile) 如 下 : 























FROM ubuntu 
MAINTAINER 彭 河 森 
CMD echo "Hello world!" 





运行 以 上 镜像 ， 只 需要 在 该 文件 所 在 的 目录 下 执行 以 下 命令 : 





# 按照 Dockerfile 制 作 容器 虚 全 取 名 为 my-hello-world 
ee build -t my-hello-worl 
# 运行 名 为 my-hel1o- 13 全 汰 澡 志 折 机 镜像 
docker run my-hello-world 











运行 完成 之 后 ， 即 可 在 命令 行 中 看 到 “Hello world! ”的 输出 。 











如 果 您 网 络 通畅 ， 那 么 从 虚拟 机 的 建立 到 运行 全 部 完成 只 需要 一 分 钟 左 右 。 





这 里 虚拟 机 的 配置 文件 Dockerfile 主 要 包含 如 下 三 部 分 的 内 容 。 


: FROM: 这 是 所 有 Docker 容 器 引擎 最 重要 的 一 个 部 分 。 该 命令 会 告诉 Docker 引 擎 这 个 容器 镜像 是 基于 什么 操作 系统 镜像 来 建立 的 。 这 里 用 了 最 新 版 本 的 Ubuntu。 一 些 常用 的 服务 ， 例 如 网 页 服务 
Ngnix、 键 值 储存 数据 库 Redis， 以 及 我 们 后 面 将 会 学 到 的 Storm、Hadoop、Spark 等 软件 ， 都 有 已 经 预先 配置 好 的 Docker 系 统 镜像 。 利 用 Docker 引 擎 我 们 可 以 省 去 安装 程序 的 烦琐 工作 ， 而 将 精力 放 在 更 重要 的 
架构 配置 上 面 。 


:MAINTAINER: 这 个 就 不 用 多 说 了 吧 ， 创 建 一 个 新 的 镜像 ， 留 下 自己 的 名 字 ， 以 便于 日 后 维护 和 处 理 问 题 。 


“ CMD: 该 字段 告诉 Docketr 引 擎 执行 字段 内 的 操作 。 这 个 示例 是 打印 Hello World。 





值得 注意 的 是 ，Docker 引 警 执行 以 上 操作 的 时 候 是 按 从 上 到 下 的 顺序 线性 执行 的 。 创 建 的 新 虚拟 机 镜像 并 不 会 马上 删除 ， 而 是 留 在 了 当前 工作 电脑 的 临时 文件 夹 里 面 ， 可 以 通过 docker images 命 令 来 
查看 。 











6.4.2 利用 Dockerfile 进 行 虚拟 机 和 宿主 机 之 间 的 文件 传输 








在 创建 Docker 容 器 虚拟 机 镜像 的 时 候 ， 可 能 需要 将 宿主 机 上 面 的 程序 、 静 态 初 始 数据 等 复制 到 镜像 中 ， 永 久 成 为 镜像 的 一 部 分 。 与 此 同时 ，Docker 容 器 虚拟 机 与 平常 接触 到 的 虚拟 机 、 服 务 器 一 样 ， 
有 端口 的 概念 ， 对 于 网 络 链接 需要 进行 端口 设置 。 为 此 使 用 以 下 例子 来 介绍 相关 操作 。 























站 










































































在 下 面 这 个 例子 中 ， 将 用 Dockerfile 搭 建 一 个 基于 Python Flask 的 静态 网 站 。 该 网 站 代码 位 于 宿主 机 中 ， 需 要 在 构建 Docker 容 器 镜像 的 时 候 载 入 进去 。 镜 像 启 动 之 后 ， 会 使 用 宿主 机 端口 ， 可 以 通过 网 
络 来 访问 该 端口 。 该 容器 镜像 的 配置 文件 夹 包含 以 下 三 个 文件 。 




















“ hello.py: Python 静 态 网 页 文件 ， 在 访问 5000 端 口 时 反馈 简单 的 字符 问候 语 。 
“ requirements.txt: Python 软 件 包 配 置 文件 ， 用 于 安装 所 需要 的 软件 包 Flask。 


“ Dockerfile: 产生 容器 镜像 的 配置 文件 。 





其 中 ，Dockerfile 的 配置 文件 如 下 : 





FROM orchardup/ ython:2.7 

MAINTAINER 茧 泣 9 寺 hesen.peng@gmail .com 
ADD . /code 

WORKDIR /code 

RUN pip install -r requirements.txt 
CMD python hello.py 


运行 以 上 Docker 容 器 镜像 ， 只 需要 执行 以 下 命令 即 可 : 


# 制作 容器 虚拟 机 镜像 ， 的 让 flask 
i build -t my-hello-fla: 
# 运行 镜像 ， 基因 可 放松 的 3050 吕 55 其 身 到 宿主 机 的 0 端口 上 去 
docker run -d -p 80:5000 my-hello-flask 





件 


多 个 





运行 以 上 命令 之 后 ， 通 过 浏览 器 访问 http:Wlocalhost， 即 可 看 到 图 6-3 所 示 的 反馈 。 











localhost - Chromium 


DD localhost 





« © 门 localhost 


Hello world from Docker on a website! 


细心 的 读者 可 能 会 发 现 以 上 示例 配置 文件 新 增 了 以 下 两 个 字段 。 


“ ADD: 该 命令 将 会 把 宿主 机 下 的 目录 加 载 到 容器 虚拟 机 中 。 所 以 执行 此 命令 之 后 ， 


进行 复制 操作 。 


图 6-3 静态 Python 网 页 程序 反馈 


" WORKDIR: 顾名思义 ， 该 命令 是 将 虚拟 机 的 工作 目录 设置 到 指定 的 位 置 。 








与 此 同时 ， 可 以 注意 到 ， 在 运行 该 容器 镜像 的 时 候 ， -p 命 令 将 容器 虚拟 机 的 5000 端 口 映射 到 了 宿主 机 的 80 端 口上 。 不 推荐 在 Dockerfile 中 设置 端 








所 需 的 hello.py 和 requirements.txt 都 已 经 在 容器 虚拟 机 的 /code 目 录 中 了 。 








映射 ， 


















































另外 值得 注意 的 是 ， 在 创建 my-flask-hello 容 器 虚拟 机 的 时 候 是 在 给 定 





这 


6. 


对 


口 、 





阅 


6. 


珊 





这 是 因为 ADD 命 令 已 经 将 工作 目录 下 的 所 有 文件 复制 到 了 虚拟 机 中 ， 不 再 需 





5 ”服务 器 集群 配置 工具 Docker Compose 





完全 相同 的 容器 虚拟 机 。 如 果 预 先 设置 了 端口 映射 ， 那 么 就 有 可 能 多 台 容 器 虚拟 机 同时 争 抢 同一 个 端口 ， 造 成 冲突 。 








录 下 运行 的 。 当 容器 完成 建立 之 后 ， 可 以 在 当前 服务 器 的 任何 一 个 目录 下 

















以 上 命 








从 宿主 机 上 面 读 取 。 














同时 ， 可 以 采用 COPY 命 令 对 有 具体 的 单个 文 


为 其 往往 会 在 同一 台 宿 主机 上 同时 运行 











令 运行 虚拟 机 ， 而 不 用 担心 




















录 文 件 加 载 。 


前 面 已 经 完成 了 通过 Docker 引 警 配置 单个 容器 虚拟 机 的 工作 ， 这 省 去 了 安装 软件 等 烦琐 的 细节 ， 但 是 这 在 实时 机 器 学 习 多 主机 、 多 服务 运行 的 环境 中 还 是 不 够 的 ， 为 此 还 需要 对 服务 器 集群 进行 配置 。 
服务 器 集群 的 配置 主要 包括 四 个 方面 : 单个 服务 器 的 配置 、 服 务 器 之 间 的 连接 、 对 外 访问 端口 的 设置 和 数据 存储 卷 标的 配置 。 





























本 章 将 介绍 服务 器 集群 配置 工具 Docker Compose (简称 Compose) 。 
数据 映射 等 。Compose 的 功能 几乎 涵盖 了 机 器 学 习 分 布 式 集群 的 所 有 方 





5.1 ”Docker Compose 的 安装 


Docker Compose 是 一 个 基于 Python 的 软件 ， 主 要 有 Pip 和 Cur| 两 种 安装 方法 []， 推 荐 使 
需要 以 下 命令 即 可 : 

















Compose 可 以 有 











脚本 配置 的 方式 高 效 地 设置 复杂 服务 器 集群 ， 其 配置 方 























包括 集群 每 台 




















容器 虚拟 机 的 镜像 内 容 设置 、 网 络 端 
。 全 靠 Compose 提 供 的 方便 ， 本 书 才 得 以 囊括 如 此 多 的 内 容 。 本 节 将 对 Compose 的 安装 和 基本 操作 进行 介绍 ， 


建议 读者 详细 


Python Pip 的 方法 来 进行 安装 。Python Pip 是 基于 Python 的 软件 包 管 理 软件 ， 通 过 Pip 安 装 Compose， 只 
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## 安装 python 和 pip， 如 果 您 已 经 安装 了 Python 和 pip， 那 么 这 里 可 以 跳 过 这 一 步 


sudo apt-get install python python-pip 
## 安装 Docker Compose 

sudo pip install docker-compose 

## 测试 安装 成 功 


docker-compose --version 


如 果 一 切 顺利 ， 执 行 完成 第 三 步 之 后 ， 命 令 行 会 成 功 显示 出 当前 Docker Compose 的 版 本 信息 。 恭 喜 ， 您 已 经 完成 Docker Compose 的 安装 了 。 


.5.2 ”Docker Compose 的 基本 操作 














利用 Docker Compose 配 置 集群 主要 分 为 如 下 三 个 步 又。 


1) 对 单个 服务 进行 编写 和 配置 ， 撰 写 Dockerfile 文 件 。 





2) 对 整个 服务 器 集群 进行 配置 ， 撰 写 docker-compose.yml 文 件 。 


3) 启动 整个 集群 ， 只 需要 一 个 命令 即 可 : docker-compose up。 





没 错 ， 就 是 这 么 简单 。 这 样 的 操作 范式 是 目前 最 流行 的 Compose 编 程 流程 ， 意 思 就 是 像 写 歌曲 (Compose) 一 样 一 点 点 添加 成 分 ， 最 后 达到 完美 。 那 么 下 面 就 通过 一 个 例子 来 介绍 Docker Compose 


的 基本 操作 。 











Docker Compose 的 操作 主要 是 通过 命令 行 工具 docker-compose 来 完成 ， 其 语法 与 Docker 引 擎 的 语法 规则 类 似 ， 基 本 格式 是 : 





docker-compose [ 子 命令 ] - 


[变量 旗 标 ， 可 选 ] [变量 名 ， 可 选 ] 





同 理 ， 最 便捷 的 快速 查阅 命令 











行 可 用 指令 的 方法 是 : 








docker-compose help 





为 了 对 服务 器 进行 配置 ，Docker Compose 往 往 会 与 服务 器 集群 配置 文件 进行 交互 操作 ， 配 置 文件 一 般 默 认命 名 为 docker-compose.yml。 该 配置 文件 遵从 YAML (YAML Ain 抉 Markup Language 的 


缩写 ) 的 语法 规范 。 





按照 服务 器 集群 生存 期 的 操作 ，Docker Compose 对 应 的 子 命令 有 build、create、up、down、start、stop， 同 时 也 具有 ps、logs 等 子 命令 进行 状态 检查 ， 下 面 就 通过 具体 例子 对 这 些 命令 进行 介绍 。 


6.5.3 利用 Docker Compo 


前 面 提 到 过 ， 镜 像 在 运行 的 
存储 在 本 地 宿主 机 或 网 络 云端 ， 
存储 在 宿主 机 的 目录 里 。 


se 创建 网 页 计数 器 集群 








时 候 会 产生 数据 库 记录 等 信息 ， 需 要 长 时 间 存 储 。 但 是 Docker 镜 像 是 无 状态 的 (stateless) ， 在 执行 完成 或 中 途 关 闭 以 后 ， 内 部 不 会 存储 任何 数据 。 数 据 库 内 容 等 信息 必须 


才 不 会 随 着 Docker 镜 像 的 关闭 而 消失 。 本 节 将 介绍 




















通过 下 面 这 个 例子 ,我 们 将 学 习 Docker Compose 集 群 配 置 的 基本 操作 ， 并 且 体会 宿主 机 数据 上 映射、 镜像 更 新 等 操作 。 

















Docker Compose 配 置 一 个 基于 Python 和 Redis 的 分 布 式 计数 器 ， 该 计数 器 的 数据 库 文件 通过 Docker 文 件 夹 来 加 载 ， 

















计数 当然 是 实时 机 器 学 习 的 最 基本 操作 ， 别 看 这 个 操作 很 简单 ， 计 数 其 实 是 很 多 分 布 式 机 器 学 习 算法 的 核心 成 分 ， 例 如 朴素 贝 叶 斯 估计 就 会 不 停 的 用 到 计数 的 结果 ， 而 更 多 高 级 一 点 的 工具 ， 如 Vowpal 
Wabbit， 更 是 将 计数 这 个 操作 推广 到 了 登峰造极 的 地 步 。 


本 案例 的 重点 在 于 : 





“ 创建 一 个 简便 的 示例 Dock 


er 容器 虚拟 机 集群 。 


' 体会 Docker 虚 拟 机 容器 的 无 状态 性 (stateless) 。 


“ 学 习 在 Docker 容 器 虚拟 机 里 面 加载 宿 主机 目录 。 

















这 里 用 Docker Compose 构 





Redis) 构成 。 如 图 6-4 所 示 ，Re 





























建 一 个 最 基本 的 计数 器 。 其 架构 图 如 图 6-4 所 示 。 该 计数 器 属于 前 面 提 到 的 并 行 前 端 架 
dis 数 据 库 的 数据 存储 文件 通过 加 载 宿主 机 本 地 目录 备份 到 了 宿主 机 里 面 。 























Flask 网 页 前 病 





构 里 面 的 最 简 和 











版 本 ， 由 前 端 网 页 响应 (基于 Python Flask) 和 后 端 数据 库 (基于 





Redis 服务 器 





图 6-4 网 页 计数 器 示例 图 


利用 Docker Compose 配 置 这 个 集群 时 ， 只 需要 配置 一 个 名 为 docker-compose.ymI 的 脚本 文件 即 可 。 本 案例 的 脚本 如 下 : 





build: web/ 


command: python counter.py 


orts; 


redis: 
build: redis/ 


command: redis-server /config/redis.conf 


volumes: 
- /tmp:/data 








其 中 有 部 分 字段 需要 重点 注意 ， 具 体 如 下 。 








(1) 名 为 web 的 容器 虚拟 机 





该 容器 虚拟 机 负责 进行 网 页 请 求 处 理 和 反馈 。 其 通过 当前 目录 下 的 web/Dockerfile 进 行 配置 。 另 外 ， 对 于 该 容器 虚拟 机 ， 还 有 以 下 配置 值得 注意 。 


“ 网 络 端 口 配 置 : 通过 ports 中 的 配置 ， 将 容器 虚拟 机 的 5000 端 口 映射 到 宿主 机 的 80 端 口上 。 
“ 链接 其 他 服务 : 通过 links 命 令 ， 允 许 该 虚拟 机 链接 Redis 容 器 服务 。 注 意 Docker Compose 服 务 之 间 的 联系 必须 在 该 配置 文件 中 写 明 ， 否 则 无 法 进行 链接 ， 这 对 系统 安全 和 稳定 性 也 有 很 大 的 帮助 。 


(2) 名 为 redis 的 容器 虚拟 机 








该 容器 虚拟 机 负责 进行 数据 的 存储 。 以 下 这 些 配 置 需要 重点 注意 。 





























加 载 本 地 文件 夹 (volumes 字 段 ) : 这 里 将 宿主 机 的 /tmp 文 件 夹 加 载 到 了 容器 虚拟 机 的 /data 文 件 夹 上 。 由 于 redis 的 Docker 镜 像 会 将 数据 库 缓存 文件 自动 定期 存 到 /data 文 件 夹 中 ， 因 此 该 虚拟 机 关闭 
之 后 ， 数 据 库 的 快照 文件 仍然 存储 于 宿主 机 中 ， 这 样 就 实现 了 在 宿主 机 中 备份 容器 虚拟 机 数据 的 需求 。 























要 运行 以 上 虚拟 机 容器 集群 ， 只 需要 执行 以 下 命令 即 可 : 








## 运行 网 页 计数 器 集群 ， 通 过 ctrl+C 退 出 
## 或 通过 docker-compose up -d 后 台 运行 
docker-compose up 

















6-5 所 示 ) 。 





[ 


执行 以 上 第 一 个 命令 以 后 ， 如 果 一 切 顺 利 ， 可 以 看 到 Docker 引 擎 下 载 对 应 的 虚拟 机 镜像 并 且 编 译 ， 完 成 启动 了 之 后 ， 就 可 以 访问 http://localhost 来 看 看 成 果 啦 (如 








localhost - Chromium 


[DD localhost x 





%《 _ D localhost 


The total number of visit to this page: 10 











图 6-5 网 页 计数 器 网 页 堆 

















通过 多 次 刷新 该 网 页 ， 可 以 看 到 网 页 计数 器 的 数字 在 不 断 增加 ， 如 图 6-5 所 示 。 先 暂时 终止 一 下 集群 的 运行 ， 执 行 以 下 命令 ， 并 且 访 问 宿主 机 的 临时 文件 夹 /tmp， 可 以 发 现 中 间 多 了 一 个 名 为 dump.rdb 
的 文件 ， 这 就 是 需要 长 期 保留 的 redis 数 据 库 快 照 。 

















## 运行 完成 后 停止 集群 


docker-compose down 









































如 果 再 次 启动 该 集群 ， 再 次 访问 http://localhost， 可 以 发 现 计 数 器 在 上 次 的 基础 上 继续 增加 ， 并 未 归 零 。 这 说 明 容器 虚拟 机 利用 了 /tmp/dump.rdb 里 面 的 数据 信息 。 











细心 的 读者 大 概要 问 ， 如 果 redis 容 器 虚拟 机 不 加 载 宿主 机 的 /tmp 目 录 ， 会 有 什么 后 果 呢 ? 请 到 docker-compose.yml 集 群 配 置 文 件 中 删除 volumes 字 段 ， 再 次 运行 集群 ， 看 看 会 出 现 什 么 。 这 里 因为 更 
改 了 集群 的 配置 文件 ， 所 以 需要 通过 docker-compose build 命 令 来 重新 编译 该 镜像 。 









































前 面 通过 配置 网 页 计数 器 的 示例 ， 我 们 体会 了 Docker Compose 利 用 脚本 架设 服务 器 集群 的 操作 。 这 样 的 操作 比 具体 登录 到 服务 器 里 面 安装 和 配置 单个 程序 要 方便 得 多 ， 可 以 大 大 加 快 集群 服务 的 开发 
进程 。 与 此 同时 ， 每 个 集群 的 配置 文件 都 在 同一 个 目录 下 ， 和 在 生产 环境 中 运行 的 服务 器 镜像 完全 相同 ， 所 以 也 就 避免 了 “在 开发 人 员 电脑 上 某 服务 可 以 正常 运行 ， 部 署 完 成 之 后 就 坏 了 ”的 问题 。 




















与 此 同时 ， 如 果 你 完成 了 上 面 案例 中 的 课 后 作业 ， 那 么 你 将 会 发 现 重新 编译 镜像 的 速度 非常 快 〔 少 于 30 秒 ) ， 这 是 因为 所 有 的 容器 虚拟 机 镜像 已 经 被 缓存 在 了 您 的 本 地 电脑 里 ， 重 新 编译 的 时 候 只 需要 
执行 更 新 后 的 若干 操作 。 这 样 的 效率 也 是 Docker 出 现 之 前 所 没有 过 的 ， 其 可 以 大 大 提高 开发 实时 机 器 学 习 系 统 的 速度 。 

















上 我们 建议 在 您 安装 之 前 到 官方 网 站 上 查阅 最 新 版 本 信息 https://docs.docker.com/compose/ install/ 


6.6” 远 端 服 务 器 配置 工具 Docker Machine 























细心 的 读者 看 到 这 里 大 概 在 想 ， 读 了 这 么 久 了 ， 所 有 实例 都 只 是 在 我 自己 的 开发 机 器 上 运行 ， 怎 么 样 才能 实现 在 云端 生产 环境 中 运行 呢 ? 如 果 要 配置 Docker 运 行 环境 ， 是 否 需要 我 在 每 台 服 务 器 上 亲 
进行 手动 配置 呢 ? 由 此 带 来 的 额外 工作 量 是 否 值得 呢 ? 
































Docker 早 期 的 开发 者 已 经 预计 到 了 这 样 的 问题 ， 故 而 设计 了 Docker Machine 这 一 套 工 具 ， 来 解决 实际 服务 器 配置 中 的 问题 。 简 而 言 之 ，Docker Machine 是 一 个 Docker 运 行 环境 安装 和 配置 的 工具 ， 
可 以 用 于 在 多 个 平台 上 自动 化 地 安装 和 配置 Docker 运 行 环境 。 这 样 的 操作 往往 只 需要 一 个 命令 就 可 以 完成 。Docker Machine 已 经 可 以 支持 现今 主要 的 公有 云 ， 包 括 : Amazon Web Services (AWS) 、 
微软 云 服务 (Microsoft Azure) 、 谷 歌 云 服务 (Google Compute Engine) ， 以 及 本 书 将 会 使 用 的 Digtial Ocean。 另 外 ，Docker Machine 也 支持 本 地 虚拟 机 配置 ， 如 果 您 需要 在 自己 的 本 地 虚拟 机 中 进 
行 实验 ， 那 也 将 是 非常 方便 的 ， 包 括 : VMWare Fusion、Windows Server Hyper-V 及 本 书 将 会 使 用 到 的 Oracle VirtualBox。 

































































Docker Machine 解 决 了 在 生产 环境 中 部 署 安 装 的 重要 问题 。 前 文 提 到 过 ，Docker 轻 量化 的 容器 虚拟 机 的 重要 意义 ， 在 于 让 开发 和 生产 环境 完全 相同 。 通 过 Docker Machine 运 行 的 集群 环境 就 具有 这 
样 的 特点 。 在 开发 环境 中 运用 到 的 单个 镜像 配置 文件 Dockerfile， 和 集群 配置 文件 docker-compose.yml， 会 被 照搬 到 生产 环境 中 ， 创 建 出 完全 一 样 的 集群 运行 环境 。 












































6.6.1 Docker Machine 的 安装 





Docker Machine 的 安装 过 程 和 Compose 的 安装 过 程 类 似 ， 只 需要 手动 下 载 可 执行 文件 即 可 []: 





# 下 载 Docker Machine 运 行文 件 

curl -L https://github.com/docker/machine/releases/download/v0.7.0/docker-machine- “uname -s -uname -m’ > /tmp/docker-machine 
# 放 到 目标 运行 目录 中 

sudo mv /tmp/docker-machine /usr/local/bin/docker-machine 

# 赋予 运行 权限 

sudo chmod +x /usr/local/bin/docker-machine 

# 测试 安装 成 功 


docker-machine Version 





执行 完成 上 面 的 步骤 之 后 ， 如 果 出 现 了 Docker Machine 的 版 本 信息 ， 那 么 安装 就 成 功 啦 。 


6.6.2 ”安装 Oracle VirtualBox 


与 此 同时 ， 如 果 需 要 在 本 地 开发 环境 中 进行 Docker Compose 实 验 ， 可 以 安装 Oracle VirtualBox， 这 样 就 可 以 在 本 地 创建 虚拟 机 服务 器 了 。 安 装 Oracle VirtualBox 只 需要 执行 以 下 命令 四 即 可 : 








# 安装 virtualbox 
sudo apt-get install virtualbox 
## 验证 安装 成 功 


Virtualbox 














如 果 一 切 顺 利 ， 那 么 上 面 的 命令 执行 完成 之 后 可 以 看 到 VirtualBox 虚 拟 机 的 管理 界面 。 这 时 候 不 用 创建 新 的 虚拟 机 ， 稍 后 Docker Machine 会 自动 为 您 完成 创建 的 所 有 工作 。 这 里 先 利 用 本 地 的 














VirtualBox 虚 拟 机 环境 练习 Docker Machine 的 操作 ， 最 后 将 在 基于 Digital Ocean 的 云 环境 中 运行 前 面 开 发 的 网 页 计数 器 。 


6.6.3 ”创建 和 管理 VirtualBox 中 的 虚拟 机 


要 想 在 VirtualBox 上 面 创建 一 个 虚拟 机 ， 只 需要 运行 如 下 的 命令 : 











docker-machine create --driver Virtualbox dev 








上 面 这 个 命令 会 在 VirtualBox 中 创建 一 个 名 为 dev 的 虚拟 机 。 如 果 这 个 时 候 运行 命令 virtualbox， 打 开 虚 拟 机 管理 界面 ， 就 可 以 看 到 刚才 创建 的 这 个 虚拟 机 正在 运行 啦 ， 如 图 6-6 所 示 。 


























刚才 短 短 的 一 个 步骤 ， 就 创造 了 一 个 完全 配置 好 Docker 的 虚拟 机 ， 这 中 间 发 生 了 什么 呢 ? 首先 Docker Machine 从 远 端 服务 器 上 面 下 载 了 一 个 名 为 boot2docker 的 轻 量化 虚拟 机 镜像 ， 安 装 在 了 

















VirtualBox 上 面 ， 命 名 为 dev。 然 后 Docker Machine 通 过 一 系列 已 经 编制 好 的 程序 完成 了 dev 虚 拟 机 中 的 登录 权限 、 虚 拟 网 络 IP 地 址 等 设置 ， 并 且 让 该 虚拟 机 开始 运行 。 在 以 后 的 服务 器 配置 中 ， 
利用 Docker Machine 就 能 完成 所 有 配置 ， 而 不 需要 登录 到 具体 的 虚拟 机 中 ， 这 样 大 大 提升 了 工作 的 效率 和 安全 性 。 


















































此 时 如 果 运 行 docker-machine ls 命令 ， 就 可 以 看 到 正在 运行 的 dev 虚 拟 机 服务 器 的 相关 信息 ， 如 下 : 











NAME ACTIVE DRIVER STATE URL SWARM DOCKER 
dev - virtualbox Running tcp://192.168.99.100:2376 v1 li 





Oracle VM VirtualBox Manager 


浴场 


New Settings 


164 二 FF 户 ， 
(a 个 Running 


-有 


了 mm 
"NOW 


加 General 


Name: 


起 Details Snapshots 


到 preview 2 


dev 


Operating System: Linux 2.6/3.x (64- 
bit) 


国 System 


Base Memory: 

Boot Order: 
Disk 

Acceleration: 


1024 MB 
CD/DVD, CD/DVD, Hard 


VT-x/AMD-V, Nested 


Paging, PAE/NX 


Display 
Video Memory: 


8 MB 


Remote Desktop Server: Disabled 


Video Capture: 
Storage 


Controller: SATA 
SATA Port 0: 
SATA Port 1: 


你 Audio 





6-6 











虚拟 


这 里 可 以 看 到 dev 虚 拟 机 的 状态 是 正在 运行 (Running) ， P 





注意 这 里 的 虚拟 IP 地 址 已 经 不 再 是 localhost， 后 面 访问 的 时 候 需 要 做 相应 的 改动 。 


HI 

















有 的 时 候 仍然 需要 登录 到 通过 Docker Machine 配 置 好 的 主机 里 | 

















进行 排 错 等 操作 ， 这 个 时 候 可 以 通过 下 


Disabled 


[CD/DVD] boot2docker.iso (35.00 MB) 
disk.vmdk (Normal, 19.53 GB) 


VirtualBox 中 正在 运行 的 虚拟 机 是 通过 Docker Machine 自动 创建 的 


也 址 是 192.168.99.100。 














的 命令 很 方便 地 登录 到 远程 主机 上 : 





docker-machine ssh dev 


如 果 需 要 停止 虚拟 机 的 运行 ， 或 者 删除 虚拟 机 ， 那 么 只 需要 运行 下 面 的 命令 : 





# 停止 虚拟 机 的 运行 
docker-machine stop de: 
# 删除 虚拟 机 ， 如 果 删 除了 ， 


docker-machine rm dev 


VV 
您 需要 再 次 创建 该 虚拟 机 才 可 以 使 用 





6.6.4 在 Docker Machine 和 VirtualBox 的 环境 中 运行 集群 


现在 有 了 一 个 VirtualBox 中 的 虚拟 机 ， 那 么 如 何 才能 在 上 面 运 行 集群 呢 ? 在 Docker 操 作 平台 出 现 之 前 ， 开 发 人 员 往 往 需要 通过 一 系列 的 部 署 工 

















才能 完成 集群 的 部 署 ， 一 些 大 型 公司 往往 还 会 配备 专门 











的 集群 部 署 部 门 以 完成 部 署 工作 。Docker 操 作 平台 出 现 以 后 ， 部 署 的 步骤 就 简单 多 了 。 下 | 


6.5.3 节 的 网 页 计数 器 案例 ， 已 经 能 在 本 地 开发 机 中 





HH 











运行 容器 虚拟 机 集群 。 现 在 要 将 此 集群 部 署 到 VirtualBox 虚 拟 机 服务 器 上 ， 可 使 F 








以 部 署 6.5.3 节 中 的 案例 为 例子 ,介绍 利 








Docker Machine 在 VirtualBox 虚 拟 机 中 如 何 部 署 集群 。 














如 下 命令 : 








# 打开 dev 虚 拟 机 (如 果 尚未 启动 ) 
docker-machine start dev 

# 将 当前 命令 行 操作 参数 改 为 dev 机 对 应 的 参数 
eval \$ (docker-machine env dev) 

# 运行 网 页 计数 器 集群 


docker-compose up -d 








没 错 就 是 这 么 短 短 三 个 命令 ， 





在 服务 器 环境 中 运行 Docker 容 器 服务 器 集群 ， 与 在 开发 机 上 本 
命令 docker-machine ls， 可 以 看 到 如 下 结果 : 


也 运行 唯一 的 不 同 就 是 对 外 网 络 IP 地 址 。 这 是 因 


就 可 以 将 前 文 所 述 的 服务 器 集群 直接 迁移 到 VirtualBox 上 ， 而 不 需要 进行 任何 改动 。 








为 VirtualBox 的 虚拟 机 在 网 络 上 其 实 是 有 自己 独立 的 IP 地 址 的 。 以 笔者 的 电脑 为 例 ， 运 行 

















NAME 
dev 


ACTIVE 


大 


DRIVER 
virtualbox 


STATE 
Running 


URL 
tcp://192.168.99.100:2376 


SWARM 








从 中 可 以 注意 到 ，dev 这 人 台 虚 拟 机 的 I|P 地 址 ， 通 过 访问 http://192.168.99.100， 可 以 看 到 当前 的 网 页 计数 器 结果 。 














通过 上 面 的 例子 可 以 看 出 ,使 用 了 Docker 以 后 ， 只 需要 极 少 的 改动 ， 即 可 将 开发 的 机 器 学 习 服务 运行 起 来 。 这 样 的 效率 让 开发 人 员 有 了 更 大 的 自由 度 ， 开 发 周期 也 可 以 大 大 缩短 。 

















6.6.5 利用 Docker Machine 在 Digital Ocean 上 配置 运行 集群 

















本 节 将 介绍 如 何在 云 服务 中 使 用 Docker Machine， 实 现 快速 服务 器 部 署 。Docker Machine 已 经 实现 了 对 主流 云 服 务 ， 如 亚马逊 云 服 务 (Amazon Web Service) 、 微 软 云 服务 (Microsoft 
Azure) 、 谷 歌 云 服务 (Google Compute Engine) 的 支持 。 国 内 很 多 公司 均 采 用 私有 云 的 模式 来 运营 ，Docker Machine 也 实现 了 对 Open Stack 和 ssh 方 式 管理 服务 器 的 支持 。 相 信和 在 不 久 的 将 来 ， 也 会 


实现 对 国内 主流 云 服务 ， 如 阿里 云 、UCloud 等 的 支持 B]。 





















































本 节 将 会 采用 Digital Ocean 的 云 平 台 来 进行 数学 介绍 。 选 择 使 用 Digital Ocean 作为 案例 平台 是 因为 它 价格 低廉 ， 服 务 非常 简单 和 直观 ， 比 较 接近 国内 云 供 应 商 的 运行 环境 。 笔 者 曾 在 亚 马 还 和 微软 工 
作 过 ， 因 此 可 以 很 方便 地 拿 到 AWS 和 Azure 的 资源 ， 但 是 为 了 教学 目的 还 是 选择 了 Digital Ocean。 在 Digital Ocean 上 注册 需要 一 个 邮箱 地 址 和 可 以 国际 支付 的 信用 卡 信息 ， 通 
过 https://m.do.co/c/53c4e6a09197 注 册 可 以 获得 10 美 元 的 初始 运行 资金 ， 基 本 上 足够 在 一 个 月 内 完成 本 书 所 有 云 计算 服务 器 配置 相关 的 实验 操作 。 









































第 一 步 : 获取 Digital Ocean 的 Access Token。 











在 Digital Ocean 上 进行 远 端 操作 ， 最 安全 的 方式 是 使 用 Access Token (安全 令 牌 ) 进行 身份 验证 。 这 样 即 可 避免 泄露 用 户 名 、 密 码 带 来 的 安全 隐患 。 与 此 同时 ， 每 个 账号 可 以 有 多 个 安全 令 牌 ， 可 以 
分 配给 不 同 的 开发 人 员 和 业务 部 门 。 如 果 一 个 部 门 的 令 牌 出 现 了 泄露 ， 那 么 可 以 很 方便 地 删除 问题 令 牌 ， 重 新 分 配 新 的 安全 令 牌 。 




















获取 安全 令 牌 的 步骤 非常 简单 ， 首 先 登 录 到 Digital Ocean 的 管理 主页 ， 点 击 页 面 上 方 的 APl 链 接 ， 并 在 后 续 页 面 左 侧 选择 Tokens， 然 后 点 击 右上 方 的 Generate New Token 按 钮 ， 即 可 产生 一 个 新 的 安 
全 令 牌 ， 如 图 6-7 所 示 ， 这 里 产生 了 一 个 代号 名 为 docker-machine 的 令 牌 。 
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图 6-7 Digital Ocean 安 全 令 牌 产生 页 面 





在 产生 令 牌 的 过 程 中 ， 网 页 上 会 显示 出 安全 令 牌 的 具体 字段 ， 请 赶快 保存 下 来 ， 存 放 到 安全 的 地 方 。 


第 二 步 : 在 Digital Ocean 上 运行 容器 服务 器 集群 。 


























有 了 安全 代码 之 后 ， 在 Digital Ocean 上 运行 服务 器 集群 就 是 易如反掌 的 事情 了 。 只 需要 对 前 文 的 代码 稍 作 修改 即 可 运行 ， 示 例 代 码 如 下 : 








docker-machine create \ 
--driver digitalocean \ 
--digitalocean-access-token e550clfdb01cd00da46b68615fd160876f0bb4181024516143 
--digitalocean-region "sgpl" 
--digitalocean-size "lgb" \ 
--digitalocean-backups \ 
docker-playground 





上 面 这 段 代 码 会 创立 一 个 名 为 docker-playground 的 服务 器 ， 这 个 服务 器 位 于 新 加 坡 (region 参 数 ) ， 拥 有 1GB 内 存 (size) 参数 ， 并 且 每 周 都 会 自动 备份 (backups 参 数 ) 。access-token 后 面 附 带 
的 就 是 笔者 为 此 书 使 用 的 安全 令 牌 ， 当 然 现 在 它 已 经 失效 了 。 























后 面 的 操作 与 前 文 几乎 就 完全 一 样 了 ， 只 需要 下 面 的 步 又， 网 页 计数 器 就 可 以 在 docker-playground 这 人 台 服 务 器 上 运行 起 来 ， 示 例 代码 如 下 : 





# 在 网 页 计数 器 目录 下 执行 

eval \$ (docker-machine env docker-playground) 
docker-compose up -d 

# 获得 现在 服务 器 的 IP 地 址 


docker-machine 1s 








通过 以 上 最 后 一 个 命令 ,获得 docker-playground 服 务 器 的 IP 地 址 以 后 ， 就 可 以 通过 互联 网 访问 您 的 网 页 计数 器 了 ， 把 它 发 给 好 朋友 也 可 以 进行 访问 哦 。 


[我 们 建议 读者 访问 Docker 官 方 网 站 查阅 最 新 的 安装 的 方法 https://docs.docker.com/machine/ install-machine/。 
加 ] 或 者 访问 VirtualBox 的 官方 主页 下 载 最 新 版 本 https://www.virtualbox.org/wiki/Downloads。 


[3] 读者 可 以 通过 这 个 链接 查阅 最 新 Docker Machine 支 持 的 云 服 务 列表 https://docs.docker.com/ machine/drivers/。 


6.7 ”其 他 有 潜力 的 Docker 工 具 








本 节 学 习 了 使 用 Docker Machine 在 虚拟 机 和 云端 服务 器 中 配置 和 运行 Docker 集 群 。 细 心 的 读者 可 能 要 问 ， 现 在 还 只 是 在 一 台 服 务 器 上 运行 呢 ， 为 了 达到 高 稳定 性 ， 如 何 才 能 在 多 台 服 务 器 中 运行 呢 ? 
若 要 详细 讲解 这 个 问题 的 答案 ， 就 又 可 以 写 一 本 书 出 来 了 。 当 今 主流 的 云 计算 提供 商都 为 Docker 生 态 系统 站 台 ， 开 发 并 推出 了 各 种 适用 于 Docker 的 多 服务 器 部 署 方案 。 例 如 谷歌 开发 出 了 Kubernetes 生 
态 ， 用 于 在 云端 配置 乡 台 服 务 器 集群 ， 并 对 Docker 集 群 服务 进行 可 视 化 管理 。 亚 马 逊 云 服务 也 推出 了 Elastic Container Service， 让 Docker 的 部 署 工作 变 得 易如反掌 。 可 以 确定 的 是 ， 得 益 于 Docker 运 行 
环境 ， 不 管 在 一 台 还 是 多 台 集群 上 进行 部 署 ， 开 发 实时 机 器 学 习 的 过 程 都 是 一 样 的 。 下 面 是 一 些 有 用 的 链接 ， 供 大 家 参考 。 
















































































' Docker Swarm 是 一 个 服务 器 集群 链接 工具 。Docker Swarm 也 是 由 Docket 原 班 人 马 开发 的 ， 可 以 很 容易 地 将 Docker Machine 所 配置 的 服务 器 并 联 在 一 起 进行 操作 。 
“ Apache Mesos 是 当前 最 热门 的 数据 中 心 管理 系统 。Mesos 可 以 实现 数据 中 心 的 高 度 自动 化 资源 分 配 和 管理 ， 具 有 本 地 Docker 资 源 管 理 插件 ， 非 常 适合 对 Docker 集 群 进行 资源 的 分 配 和 管理 。 


“Jenkins 是 当前 最 主流 的 连续 部 署 和 测试 工具 。Jenkins 可 以 自动 化 测试 和 部 署 所 有 步骤 ， 将 集群 和 开发 人 员 分 隔 开 来 ， 以 保证 集群 的 安全 运行 。 


第 7 章 ”实时 消息 队列 和 RabbitMQ 


7.1 ”实时 消息 队列 


如 果 说 Docker 等 虚拟 机 管理 平台 是 一 个 系统 的 根基 ， 那 么 消息 队列 就 是 一 个 系统 的 主心骨 。 消 息 队列 负责 在 一 个 复杂 系统 的 多 个 服务 中 传递 、 分 发 消息 。 架 构 人 员 通 过 多 年 的 经 验 ， 往 往 都 会 意识 到 ， 
消息 队列 的 正确 使 用 ， 是 系统 稳定 、 扩 展 方便 的 必要 条 件 。 其 原因 总 结 起 来 有 以 下 几 点 。 





























(1) 融合 不 同 的 服务 























实时 机 器 学 习 信息 往往 需要 经 过 多 重 处 理 ， 与 多 个 服务 交互 才能 最 后 完成 机 器 学 习 处 理 的 任务 。 这 些 服务 可 能 是 由 不 同 的 编程 语言 编写 的 ， 具 有 不 同 的 访问 和 使 用 方式 。 如 果 让 服务 之 间 直 接 通信 , 那 
么 n 个 服务 需要 编写 n (n-1) 个 访问 方式 ， 这 大 大 加 重 了 开发 人 员 的 工作 ， 也 增加 了 维护 难度 。 






































如 果 采 用 消息 队列 作为 中 转 枢纽 ， 对 消息 读 取 和 存储 的 方法 都 统一 标准 化 了 ， 每 个 服务 都 只 需 按照 消息 队列 的 读 取 方法 来 读 取 数据 ， 这 样 则 会 大 大 降低 开发 和 运 维 的 难度 。 








(2) 抽象 化 服务 界面 





实时 机 器 学 习 系统 所 需要 处 理 的 任务 数量 往往 是 随时 间 的 变化 而 变化 的 ， 为 保证 延迟 在 可 以 容忍 的 范围 之 内 ， 其 要 求 后 端 处 理 系统 能 够 自由 伸展 ， 以 满足 任务 数量 的 变化 ; 同时 也 需要 设计 的 架构 能 
缓冲 突然 到 来 的 大 量 任务 ， 这 个 时 候 消息 队列 也 起 到 了 缓冲 对 后 端 系统 冲击 的 作用 。 

















(3) 标准 化 监控 和 警报 系统 


后 端 系 统 往往 会 设置 访问 计数 器 ， 以 监控 正常 处 理 和 异常 的 消息 数量 。 如 果 为 每 个 服务 开发 一 个 访问 数量 计数 器 ， 那 么 势必 会 增加 开发 和 运 维 的 负担 。 通 过 消息 队列 这 一 枢纽 进行 监控 和 警报 ， 将 会 大 
大 降低 开发 成 本 ， 获 得 的 数据 也 会 更 加 真实 可 信 。 








例如 ， 在 一 个 电 商 网 站 支付 的 后 台 里 面 ， 往 往 需要 对 每 笔 交 易 进 行 作 次 监测。 正确 地 判断 虚假 交易 ， 以 保护 消费 者 和 平台 的 利益 。 为 了 进行 作 浆 监测， 可 以 使 用 监督 式 机 器 学 习 模型 ,结合 多 方面 的 信 
息 进行 判断 。 这 些 信息 的 来 源 可 能 包括 交易 物品 的 描述 、 交 易 双 方 的 用 户 情况 、 交 易 的 时 间 、 数 额 。 如 图 7-1 所 示 ， 当 一 个 作 闲 监测 任务 到 达 机 器 学 习 集群 的 时 候 ， 首 先 需要 读 取 以 上 信息 ， 这 就 需要 分 步骤 
从 兄弟 部 门 读 取 相关 信息 ， 对 信息 进行 预 处 理 ， 转 换 为 机 器 学 习 模 型 可 以 使 用 的 格式 ， 最 后 运用 模型 做 出 判断 ， 并 和 且 将 判断 的 结果 保存 在 服务 器 上 。 
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图 7-1 ” 电 商 环境 中 作 养 检测 流程 图 


这 样 一 个 流程 的 各 个 步骤 需要 和 不 同 的 服务 产生 交互 ， 并 且 处 理 时 间 也 不 一 样 。 与 此 同时 ， 任 务 的 产生 也 是 随机 的 ， 比 如 ， 在 情人 节 晚 上 产生 的 交易 较 少 ， 双 十 一 期 间 产 生 的 任务 数量 较 多 。 这 就 需要 
服务 器 能 对 任务 进行 缓冲 ， 保 证 服务 器 集群 稳定 ; 同时 服务 器 集群 需要 可 以 自由 伸缩 ， 在 任务 繁重 的 时 候 可 以 提高 处 理 能 力 ， 任 务 较 少时 可 以 降低 任务 处 理 效率 ， 减 少 资源 消耗 。 














另 一 方面 ， 业 务 的 变化 往往 需要 不 停 地 更 新 数据 处 理 的 方式 ， 这 也 就 使 得 实时 机 器 学 习 流 程 的 拓扑 结构 必须 能 够 轻易 改变 ， 而 不 用 完全 重 构 代码 。 还 是 以 电 商 作 闲 监测 为 例 ， 假 设 因为 微 信 电 商 业务 的 
需要 ， 要 在 处 理 的 数据 源 中 加 入 微 信 聊 天 记录 数据 源 ， 采 用 了 分 布 式 消息 队列 之 后 ， 只 需要 在 数据 汇总 步骤 之 前 ， 和 已 有 构件 平行 添加 一 个 微 信 数 据 读 取 服 务 即 可 。 一 个 设计 优良 的 实时 流 式 处 理 系统 ， 可 
以 让 开发 人 员 方 便 地 加 入 这 一 部 件 ， 而 不 用 大 规模 重 构 代 码 。 










































































现今 市 面 上 存在 很 多 非常 优秀 的 分 布 式 消息 系统 ， 例 如 本 章 将 会 介绍 的 RabbitMQ、 非 常 受 欢迎 的 ZeroMQ， 以 及 闭 源 的 AWS Simple Queue Service 等 。 这 里 选择 RabbitMQ 进 行 介绍 ， 因 为 它 是 所 有 
消息 队列 中 最 为 成 熟 的 一 个 。RabbitMQ 的 设计 完全 依据 于 高 阶 消息 队列 协议 (Advanced Message Queuing Protocol，AMQP) ， 熟 悉 了 AMQP 的 基本 概念 ， 大 家 对 消息 队列 的 选择 将 会 得 心 应 手 ， 上 
手 其 他 消息 队列 也 会 非常 容易 。 
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7.1 ”实时 消息 队列 


如 果 说 Docker 等 虚拟 机 管理 平台 是 一 个 系统 的 根基 ， 那 么 消息 队列 就 是 一 个 系统 的 主心骨 。 消 息 队列 负责 在 一 个 复杂 系统 的 多 个 服务 中 传递 、 分 发 消息 。 架 构 人 员 通 过 多 年 的 经 验 ， 往 往 都 会 意识 到 ， 
消息 队列 的 正确 使 用 ， 是 系统 稳定 、 扩 展 方便 的 必要 条 件 。 其 原因 总 结 起 来 有 以 下 几 点 。 



































(1) 融合 不 同 的 服务 





























实时 机 器 学 习 信息 往往 需要 经 过 多 重 处 理 ， 与 多 个 服务 交互 才能 最 后 完成 机 器 学 习 处 理 的 任务 。 这 些 服务 可 能 是 由 不 同 的 编程 语言 编写 的 ， 具 有 不 同 的 访问 和 使 用 方式 。 如 果 让 服务 之 间 直 接 通信 , 那 
么 n 个 服务 需要 编写 n (n-1) 个 访问 方式 ， 这 大 大 加 重 了 开发 人 员 的 工作 ， 也 增加 了 维护 难度 。 
































如 果 采 用 消息 队列 作为 中 转 枢纽 ， 对 消息 读 取 和 存储 的 方法 都 统一 标准 化 了 ， 每 个 服务 都 只 需 按照 消息 队列 的 读 取 方法 来 读 取 数据 ， 这 样 则 会 大 大 降低 开发 和 运 维 的 难度 。 








(2) 抽象 化 服务 界面 





实时 机 器 学 习 系统 所 需要 处 理 的 任务 数量 往往 是 随时 间 的 变化 而 变化 的 ， 为 保证 延迟 在 可 以 容忍 的 范围 之 内 ， 其 要 求 后 端 处 理 系统 能 够 自由 伸展 ， 以 满足 任务 数量 的 变化 ; 同时 也 需要 设计 的 架构 能 
缓冲 突然 到 来 的 大 量 任务 ， 这 个 时 候 消息 队列 也 起 到 了 缓冲 对 后 端 系统 冲击 的 作用 。 

















(3) 标准 化 监控 和 警报 系统 


后 端 系 统 往往 会 设置 访问 计数 器 ， 以 监控 正常 处 理 和 异常 的 消息 数量 。 如 果 为 每 个 服务 开发 一 个 访问 数量 计数 器 ， 那 么 势必 会 增加 开发 和 运 维 的 负担 。 通 过 消息 队列 这 一 枢纽 进行 监控 和 警报 ， 将 会 大 
大 降低 开发 成 本 ， 获 得 的 数据 也 会 更 加 真实 可 信 。 











例如 ， 在 一 个 电 商 网 站 支付 的 后 台 里 面 ， 往 往 需要 对 每 笔 交 易 进 行 作 浆 监 测 。 正 确 地 判断 虚假 交易 ， 以 保护 消费 者 和 平台 的 利益 。 为 了 进行 作弊 监测 ， 可 以 使 用 监督 式 机 器 学 习 模型 ， 结 合 多 方面 的 信 
息 进行 判断 。 这 些 信息 的 来 源 可 能 包括 交易 物品 的 描述 、 交 易 双 方 的 用 户 情况 、 交 易 的 时 间 、 数 额 。 如 图 7-1 所 示 ， 当 一 个 作 闲 监测 任务 到 达 机 器 学 习 集群 的 时 候 ， 首 先 需要 读 取 以 上 信息 ， 这 就 需要 分 步骤 
从 兄弟 部 门 读 取 相关 信息 ， 对 信息 进行 预 处 理 ， 转 换 为 机 器 学 习 模 型 可 以 使 用 的 格式 ， 最 后 运用 模型 做 出 判断 ， 并 且 将 判断 的 结果 保存 在 服务 器 上 。 
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图 7-1 电 商 环境 中 作 汐 检测 流程 图 


这 样 一 个 流程 的 各 个 步骤 需要 和 不 同 的 服务 产生 交互 ， 并 且 处 理 时 间 也 不 一 样 。 与 此 同时 ， 任 务 的 产生 也 是 随机 的 ， 比 如 ， 在 情人 节 晚 上 产生 的 交易 较 少 ， 双 十 一 期 间 产 生 的 任务 数量 较 多 。 这 就 需要 
服务 器 能 对 任务 进行 缓冲 ， 保 证 服务 器 集群 稳定 ; 同时 服务 器 集群 需要 可 以 自由 伸缩 ， 在 任务 繁重 的 时 候 可 以 提高 处 理 能 力 ， 任 务 较 少时 可 以 降低 任务 处 理 效率 ， 减 少 资源 消耗 。 





























另 一 方面 ， 业 务 的 变化 往往 需要 不 停 地 更 新 数据 处 理 的 方式 ， 这 也 就 使 得 实时 机 器 学 习 流 程 的 拓扑 结构 必须 能 够 轻易 改变 ， 而 不 用 完全 重 构 代码 。 还 是 以 电 商 作 闲 监测 为 例 ， 假 设 因为 微 信 电 商 业务 的 
需要 ， 要 在 处 理 的 数据 源 中 加 入 微 信 聊 天 记录 数据 源 ， 采 用 了 分 布 式 消息 队列 之 后 ， 只 需要 在 数据 汇总 步骤 之 前 ， 和 已 有 构件 平行 添加 一 个 微 信 数 据 读 取 服 务 即 可 。 一 个 设计 优良 的 实时 流 式 处 理 系统 ， 可 
以 让 开发 人 员 方 便 地 加 入 这 一 部 件 ， 而 不 用 大 规模 重 构 代 码 。 







































































现今 市 面 上 存在 很 多 非常 优秀 的 分 布 式 消息 系统 ， 例 如 本 章 将 会 介绍 的 RabbitMQ、 非 常 受 欢 迎 的 ZeroMQ， 以 及 闭 源 的 AWS Simple Queue Service 等 。 这 里 选择 RabbitMQ 进 行 介绍 ， 因 为 它 是 所 有 
消息 队列 中 最 为 成 熟 的 一 个 。RabbitMQ 的 设计 完全 依据 于 高 阶 消息 队列 协议 (Advanced Message Queuing Protocol，AMQP) ， 熟 悉 了 AMQP 的 基本 概念 ， 大 家 对 消息 队列 的 选择 将 会 得 心 应 手 ， 上 
手 其 他 消息 队列 也 会 非常 容易 。 























7.2 AMQP 和 RabbitMQ 简 介 


本 章 下 面 的 内 容 将 会 围绕 RabbitMQ 的 理论 结构 和 实战 用 法 来 进行 介绍 。 在 介绍 RabbitMQ 之 前 ， 先 来 介绍 一 下 RabbitMQ 在 设计 上 遵循 的 AMQP。AMQP 全 称 是 Advanced Message Queuing 
Protocol (高 阶 消息 队列 协议 ) 。 这 一 协议 发 表 于 2003 年 ， 当 时 金融 市 场 的 IT 化 正在 进行 ， 摩 根 大 通 (JP Morgan Chase) 的 程序 员 John O 折 are 意识 到 了 实时 消息 传导 在 金融 系统 中 的 重要 作用 ， 提 出 了 
高 阶 消 息 队列 协议 ， 用 于 抽象 化 消息 传导 的 各 种 模式 。 这 一 协议 提出 后 随即 受到 众多 工业 界 领军 组 织 的 重视 ，AMQP 不 久之 后 就 成 为 了 消息 队列 的 工业 界 标准 。 









































在 AMQP 中 ， 实 时 数据 处 理 的 流程 抽象 为 以 下 三 个 成 分 。 
: 消息 产生 者 (Producer) : 是 指 整个 实时 任务 流程 产生 的 源头 ， 可 能 是 网 页 前 端 、 上 游 服 务 等 。 
“ 消息 中 介 (Message Broker) : 是 指 搜集 整理 实时 数据 任务 ， 并 指派 到 下 游 任务 的 成 分 ， 这 里 主要 由 分 布 式 队列 服务 如 RabbitMQ 等 担当 。 


“ 数据 的 消费 者 (Consumer) : 是 指 下 游 对 数据 进行 处 理 的 服务 ， 可 能 是 具有 无 状态 性 可 以 自由 伸缩 的 的 服务 器 集群 ， 也 可 能 是 储存 数据 库 、 搜 索引 擎 等 。 



































RabbitMQ 的 身世 具有 传奇 色彩 。 本 书 作 者 还 在 吃 奶 的 时 候 (1986 年 ) ， 作 者 的 父母 刚刚 知道 世界 上 有 大 哥 大 这 样 一 个 神奇 高 洋 的 物品 ， 爱 立信 ( 没 错 ， 就 是 电信 巨头 爱立信 ) 的 研究 员 们 就 意识 到 了 
高 并 发 (concurrent) 、 稳 定 的 编程 语言 的 重要 性 ， 开 发 了 Erlang 这 一 语言 。 从 此 Erlang 成 为 了 爱立信 通信 核心 技术 的 开发 语言 ， 在 爱立信 的 3G、LTE 网 络 等 技术 中 都 有 广泛 应 用 。 得 益 于 Erlang 语 言 对 高 
并 发 高 可 用 性 应 用 场景 的 支持 ， 自 然而 然 的 ，Erlang 后 来 成 为 了 RabbitM Q 的 开发 语言 。 












































































































































RabbitMQ 的 开发 始 于 2007 年 ， 到 本 书写 作 时 为 止 ，RabbitMQ 已 经 成 为 了 最 主流 、 最 稳定 的 分 布 式 消息 队列 。RabbitMQ 具 有 成 熟 的 系统 架构 和 完备 的 图 形 化 管理 监控 界面 ， 被 Instagram、Reddit 
等 众多 互联 网 公司 所 采用 。 另 外 ， 现 在 RabbitMQ 已 经 变 成 了 一 套 非 常 成 熟 的 服务 ， 主 流 编程 语言 如 Java、Python 等 都 有 RabbitMQ 的 客户 端 。 本 书 将 使 用 RabbitMQ 的 Python 客户 端 完成 所 有 操作 。 





























7.3 ”RabbitMQ 的 主要 构成 部 分 














他 基于 AMQP 的 











RabbitMQ 的 强大 和 完备 的 设计 理念 是 密 不 可 分 的 。 本 节 将 介绍 RabbitMQ 相 关 的 AMQP 中 的 主要 概念 。RabbitM Q 根 据 AM QP 设 计 而 成 ， 掌 握 以 下 概念 之 后 ， 就 算 你 日 后 需要 使 用 
分 布 式 队列 ， 也 可 以 很 容易 地 转换 环境 。 


1. 消 息 






































消息 (Message) 是 在 RabbitMQ 队 列 中 存在 的 数据 的 基本 单元 。 一 条 消息 可 能 是 一 个 网 页 点 击 信息 、 一 封 电 邮 ， 或 者 一 个 用 户 上 传 的 图 片 。 消 息 由 以 下 几 个 主要 部 分 组 成 。 





“ 消息 负载 (payload) : 负载 是 最 核心 的 消息 数据 。 对 于 RabbitMQ， 消 息 负载 可 以 是 任何 二 进 制 数据 ， 例 如 可 以 是 JISON、Thrift 等 结构 化 数据 包 。 





“路 由 名 (toutingkey) : 消息 到 达 RabbitMQ 之 后 应 该 被 送 到 哪 一 条 队列 ? 这 样 的 规则 是 可 以 通过 路 由 名 来 确定 的 ， 每 个 消息 队列 都 有 一 个 对 应 的 路 由 名 。 


“ 投递 保证 (Delivery Persistence) : 设置 有 投递 保证 的 消息 会 存储 到 RabbitMQ 服 务 器 的 硬盘 中 ， 如 果 遇 到 服务 器 断 电 的 情况 ， 该 消息 也 不 会 丢失 。 这 特别 适合 于 人 金融、 物流 等 应 用 场景 。 








另外 在 分 布 式 系统 应 用 中 ， 往 往 会 遇 到 服务 器 重启 、 死 机 等 情况 。 举 个 例子 ， 如 果 李 雷 通 过 RabbitMQ 发 送 了 一 条 消息 给 韩 梅 梅 ， 韩 梅 梅 的 电脑 在 收 到 消息 之 后 、 处 理 之 前 死机 重启 了 ， 怎 么 才能 保证 
能 够 成 功 处 理 该 消息 呢 ? AMQP 的 设计 者 们 早 就 意识 到 了 这 个 问题 ， 制 定 了 一 套 消息 确认 (message acknowledgement) 机 制 。 具 有 消息 确认 需求 的 消息 ， 只 有 在 下 游 处 理 机 制 返回 处 理 完成 消息 
(ack) 之 后 , 才 会 从 队列 里 面 移 除 。 如 果 下 游 处 理 机 制 出 现 读 取 之 后 死机 重启 的 情况 ， 该 消息 会 重新 加 入 到 队列 里 面 ， 等 待 再 次 处 理 。 

























































































2. 消 息 队 列 



































消息 队列 (Queue) 是 RabbitMQ 中 进行 消息 存储 、 读 取 的 基本 原件 。 每 个 RabbitMQ 服 务 器 上 均 可 以 安排 多 个 消息 队列 ， 每 个 队列 均 可 以 进行 配置 ， 具 有 不 同 的 名 称 、 存 储 属 性 、 路 由 名 称 (routing 
key) 等 特性 。 





















































这 里 存储 属性 (queue persistence) 与 前 面 对 消息 的 介绍 中 提 到 的 机 制 类 似 。 如 果 存 储 属 性 里 设置 了 需要 本 地 存储 ， 那 么 如 果 发 生 服务 器 重启 等 事件 ， 这 个 队列 里 面 的 信息 就 不 会 丢失 掉 。 


























3. 网 络 连 接 





























RabbitMQ 往 往 是 以 一 个 分 布 式 消息 集群 的 形式 存在 于 一 个 系统 中 的 ， 其 他 使 用 者 需要 通过 网 络 连 接 的 方式 与 之 对 接 。RabbitMQ 底 层 采用 TCP 客 户 端 与 服务 器 之 间 进 行 通信 。 与 此 同时 ， 每 个 应 用 程序 
都 可 能 需要 同时 与 多 个 RabbitMQ 消 息 队 列 互 相通 信 。 为 了 合理 利用 TCP 连 接 资 源 ，RabbitMQ 的 网 络 连 接 被 分 为 以 下 两 层 。 








“ 连接 (connection) : 每 个 连接 都 是 一 个 独立 的 客户 端 和 服务 器 端 之 间 的 TCP 连 接 。 
“ 频道 (channel) : 每 个 频道 都 有 一 个 独特 的 数字 代表 ， 频 道 之 间 的 任务 是 相互 独立 的 ， 但 是 在 底层 运行 的 时 候 都 是 通过 同一 个 连接 来 完成 服务 器 和 客户 端 之 间 的 通信 的 。 
另外 RabbitMQ 对 身份 验证 、 消 息 加 密 都 有 很 好 的 支持 ， 客 户 端 和 服务 器 端 可 以 通过 SSL 加 密 连 接 ， 以 保证 通信 的 安全 性 。 


4. 消 息 交换 中 心 

















一 条 消息 到 达 RabbitMQ 服 务 器 之 后 ， 是 如 何 分 配 到 各 个 消息 队列 的 呢 ? 这 个 重要 的 任务 是 由 消息 交换 中 心 (exchange) 完成 的 。 每 个 RabbitMQ 服 务 器 往往 会 承载 多 个 消息 队列 ， 消 息 交 换 中 心 担任 
着 邮递 员 一 样 的 职能 ， 根 据 既 定 的 规则 将 各 个 消息 送 到 所 需 的 队列 中 去 。 这 样 的 规则 可 能 是 一 对 一 ， 也 可 能 是 一 对 多 、 多 对 多 ， 甚 至 可 以 有 更 复杂 的 规则 。 



































实际 消息 传导 的 应 用 中 ， 消 息 分 发 的 机 制 可 以 多 种 多 样 。 例 如 ， 对 于 股票 和 期 权 的 实时 报价 ， 可 能 需要 增加 规则 按照 对 应 证 券 的 种 类 将 数据 分 配 到 不 同 的 队列 上 去 。 我 们 可 能 会 将 股票 报价 放 入 股票 报 
价 队 列 ， 期 权 报 价 放 入 期 权 报 价 队列 。 











7.4 ”常用 交换 中 心 模式 




















RabbitMQ 服 务 器 集群 按照 设计 可 以 配置 成 各 种 结构 ， 以 满足 不 同业 务 的 需求 。 简 单 的 ，RabbitMQ 服 务 器 可 能 只 包含 一 个 单 服务 器 ， 以 满足 本 地 简单 非 关键 性 任务 ;复杂 的 ，RabbitMQ 服 务 器 可 能 会 
分 布 在 全 国 各 地 ， 形 成 一 个 消息 网 络 集群 。 消 息 在 这 么 复杂 多 变 的 拓扑 结构 中 传播 ， 自 然 需要 有 效 的 控制 调配 手段 。 这 样 的 工作 是 通过 配置 消息 交换 中 心 来 完成 的 。RabbitMQ 提 供 了 四 种 消息 交换 中 心 结 
构 ， 下 面 将 分 别 介绍 。 




















7.4.1 直 连 结构 


直 连 结构 (direct exchange) 是 RabbitMQ 最 基本 的 交换 中 心 模式 。 在 直 连 结构 中 ， 消 息 (message) 在 路 由 名 (routing key) 中 将 自 带 所 要 到 达 的 队列 的 名 称 。 该 消息 将 通过 直 连 结构 交换 中 心 ， 
到 达 和 路 由 名 同名 的 队列 (如 图 7-2 所 示 ) 。 























图 7-2 ” 直 连 结构 交换 中 心 示意 区 
































例如 ， 在 实时 股票 价格 预测 场景 中 ， 需 要 将 最 新 的 股票 价格 加 入 到 报价 队列 中 ， 每 一 条 最 新 报价 的 路 由 名 只 需要 和 队列 名 同名 ， 消 息 即 可 被 送 达 。 


7.4.2 ”扇形 结构 


有 的 时 候 ， 我 们 需要 将 一 条 消息 同时 送 达 多 个 队列 ， 这 个 时 候 就 需要 扇形 结构 (fanout exchange) 来 帮忙 了 。 








如 图 7-3 所 示 ， 在 进行 实时 订 





























同时 送 往 数据 库存 储 队列 和 机 器 学 习 处 理 队列 。 


7.4.3 ”话题 结构 













扇形 消息 
交换 中 心 


处 理 的 场景 中 ， 可 能 需要 同时 对 订单 数据 进行 储存 和 机 器 学 习 判 断 ， 








我 们 可 以 建立 两 条 消息 队列 ， 分 别 对 应 于 订单 存储 和 机 器 学 习 判 断 。 当 新 订单 到 达 时 ， 该 消息 将 会 被 








本 二 本 二 二 二 二 本 二 本 二 二 二 二 二 本 本 
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队列 2 
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图 7-3 ”扇形 结构 消息 交换 中 心 


有 的 时 候 ， 消 息 的 发 出 者 并 不 清楚 具体 要 将 消息 发 向 什么 队列 ， 只 能 将 消息 的 性 质 通过 话题 的 形式 呈现 在 路 由 名 中 ， 让 RabbitMQ 的 消息 交换 中 心 按照 规则 决定 如 何 派送 消息 ， 这 样 的 模式 称 为 话题 结 
构 (topic exchange) 。 





话题 结构 非常 适合 在 系统 前 端 进行 消息 分 类 。 如 


时 ， 这 些 网 站 浏览 行为 可 能 来 自 于 移动 端 和 




















中 心 内 ， 路 由 名 采 








息 是 来 自 于 移动 端的 


[访问 /点 击 ].[ 移 动 /桌面 ] 的 格式 ， 





图 7-4 所 示 ， 在 一 个 门户 网 站 分 析 的 场景 中 ， 我 们 往往 需要 对 网 页 访问 、 点 击 进行 分 别处 理 ， 需 要 将 访问 和 点 击 分 别 投入 访问 队列 和 点 击 队 列 中 ; 与 此 同 
桌面 端 ， 我 们 还 需要 将 这 些 信息 分 别 投入 移动 队列 和 桌面 队列 中 。 为 了 能 够 对 这 些 消息 进行 快速 分 类 ， 可 以 采用 话题 结构 模式 ， 具 体 是 ， 在 RabbitMQ 消 息 交 换 























这 样 我 们 根据 设计 交换 中 心 消息 分 发 的 规则 ， 将 ; 





点 击 ， 那 么 它 会 被 同时 投入 移动 





队列 和 点 击 队列 两 条 队列 中 。 











足 [ 点 击 .*] 规 则 的 消息 全 部 投入 点 击 队列 ， 将 满足 人 *. 移 动 ] 规 则 的 消息 全 部 投入 移动 队列 。 如 果 一 条 消 
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图 7-4 ”话题 结构 消息 交换 中 心 


7.4.4 ”报头 结构 

















当然 ， 有 的 时 候 消息 投递 规则 会 变 得 异常 复杂 ， 以 至 于 以 上 三 个 方式 都 无 法 轻易 满足 需求 ， 这 个 时 候 可 以 采用 报头 结构 (header exchange) 。 为 了 满足 更 复杂 的 数据 结构 ， 消 息 交 换 中 心 需要 决策 的 
依据 不 再 来 源 于 消息 所 带 的 路 由 名 ， 而 是 来 自 于 消息 本 身 的 报头 (header) 。 报 头 结构 中 ， 每 个 目标 队列 都 有 自己 的 一 组 逻辑 ， 报 头 内 容 满足 该 逻辑 的 消息 才 会 被 传送 到 该 队列 中 。 这 些 逻 辑 可 能 
是 “与 ”也 可 能 是 “或 ”， 甚 至 更 复杂 。 








7.5 “消息 传导 设计 模式 














介绍 完了 AMQP 0-9-1 的 主要 构成 部 件 ， 现 在 就 可 以 介绍 消息 传导 的 主要 模式 了 。 消 息 传导 模式 主要 通过 交换 中 心 、 队 列 及 队列 发 起 方 的 排列 组 合 来 完成 。 本 节 将 讨论 较为 常见 的 消息 传导 方式 。 











7.5.1 任务 队列 








在 一 个 实时 机 器 学 习 系统 中 ， 往 往 需要 将 一 个 队列 中 的 任务 分 配 到 多 台 工 作 服 务 器 上 ， 分 别 进行 处 理 。 其 中 每 台 工 作 服 务 器 都 具有 无 状态 性 的 特点 ， 部 署 的 代码 也 完全 相同 。 这 些 工 作 服务 器 只 需要 不 
停 地 从 一 个 工作 队列 中 获取 任务 ， 进 行 处 理 即 可 。 如 有 需要 ， 在 完成 任务 后 进行 反馈 ， 告 知 队列 任务 已 经 完成 。 这 样 的 消息 传导 系统 称 为 任务 队列 模式 。 








任务 队列 模式 往往 由 直 连 结构 的 交换 中 心 和 单一 消息 队列 组 成 。 多 个 消费 者 同时 连接 到 队列 ， 从 中 读 取 任 务 ， 分 别 完成 。 如 图 7-5 所 示 。 














消息 生产 者 


任务 队列 非常 适合 于 耗 通 量 较 大 、 耗 时 不 定 的 任务 处 理 。 例 如 在 电 商 进行 交易 甄别 的 应 
因 有 所 变动 ， 所 以 可 以 通过 任务 队列 模式 对 甄别 任务 进行 集中 处 理 。 








注意 ， 在 任务 队列 模式 中 ， 理 想 情况 下 ， 每 一 条 消息 只 经 


7.5.2 Pub/Sub 发 布 /监听 


有 的 时 候 我 们 需要 将 同一 个 消息 发 往 多 个 不 同 的 处 理 功 能 部 件 ， 分 别 进行 处 理 。 
形 交 换 中 心 将 同一 个 消息 同时 发 布 到 每 个 相连 的 队列 ， 每 个 队列 的 消费 者 可 以 按照 自己 的 进度 分 别 进行 处 理 。 其 架构 如 图 7-6 所 示 。 





发 布 /监听 模式 适用 的 应 用 场景 包括 对 数据 分 别 进 和 
制 所 消耗 的 时 间 是 不 一 样 的 。 这 个 时 候 可 以 通过 发 布 /监听 : 














消息 生产 者 


在 传统 编程 中 ， 这 样 的 分 任务 模式 往往 会 写成 异步 处 理 程序 逻辑 。 通 过 RabbitM Q 的 配置 ， 


RabbitMQ 


消 


四 


结构 的 队列 ， 


AN 消息 | 队 丈 


由 


图 7-5 ”RabbitMQ 任 务 队列 



































过 队列 一 次 ， 并 且 只 被 一 个 消息 


RabbitMQ 


息 交 换 
心 


图 7-6 


将 同一 条 消息 分 别 发 送 到 数 


场景 中 ， 








了 处 理 的 情况 。 例 如 ， 在 实时 股票 报价 预测 中 ， 当 一 条 新 的 报价 信息 到 达 队 列 时 ， 
居 库 、 可 视 化 集群 及 预测 集群 所 对 应 的 队列 中 ， 分 别 对 





消息 队列 1 


消息 队列 2 


RabbitMQ 的 Pub/Sub 模 式 











和 前 面 介绍 的 任务 队列 模式 相对 比 ， 每 条 消息 都 会 经 过 发 布 /监听 模式 中 的 所 有 队列 ， 并 且 会 由 多 个 消息 消费 者 来 读 取 。 





7.5.3 ”远程 命令 





前 面 介绍 的 任务 队列 模式 中 ， 每 个 消息 处 班 
Call， 远 程 命令 ) 模式 出 场 了 。 


RPM (远程 命令 模式 ) 的 队列 由 同一 消息 发 送 方 、 
息 ， 进 行 处 理 ， 并 将 结果 放 入 消息 回复 队列 ， 最 后 由 消息 发 送 方 读 取 ， 继 续 后 面 的 操作 ， 如 图 





完成 之 后 都 会 直 : 


接 放 给 下 游 服务 ， 而 不 会 回 传 




















这 个 时 候 就 出 现 了 PUb/Sub (发 布 /监听 ) 模式 。 发 布 /监听 模式 的 RabbitM Q 队 列 由 扇形 交换 中 心 和 多 个 队列 组 成 ， 






每 一 个 交易 都 需要 通过 机 器 学 习 模型 进行 判断 ， 而 判断 的 时 间 可 能 会 因为 网 络 延迟 、 模 型 复杂 度 等 原 





肖 费 者 读 取 和 处 理 ， 这 与 后 文 的 发 布 /监听 模式 是 不 同 的 。 


加 














可 能 要 对 其 进行 数据 库存 储 、 可 视 化 、 预 测 等 多 种 处 理 ， 每 个 处 理 机 




















进行 处 理 。 







数据 的 分 发 将 会 直接 标准 化 ， 这 大 大 降低 了 开发 负担 ， 减 少 了 出 错 概率 。 




















给 消息 产生 者 。 如 果 消 息 发 生 者 需 


消息 发 送 队 列 、 消 息 回 复 队 列 ， 以 及 消息 处 理 服务 器 组 成 。 进 行 远程 处 理 时 ， 


7-7 所 示 。 


继续 使 用 处 理 











完 的 消息 ， 那 么 这 里 就 要 轮 到 RPC (Remote Processing 


消息 发 送 方 将 消息 发 入 消息 发 送 队列 ,消息 处 理 服务 器 从 队列 中 读 取 消 


RabbitMQ 


请 求 队列 






请 求 发 出 方 






反馈 队列 








7-7 ”RabbitMQ 的 RPC 模 式 


























RPC 模 式 很 适合 于 处 理 那 种 任务 需要 耗费 较 多 时 间 ， 或 者 处 理 任务 与 当前 系统 语言 不 一 样 等 的 情况 。 例 如 在 实时 机 器 学 习 应 用 中 ， 机 器 学 习 部 分 可 能 是 由 Python 编 写 的 ， 且 执行 耗 时 较 长 ， 而 其 他 系统 
架构 可 能 是 由 Java 编 写 的， 那么 通过 RPC 模 式 ， 就 可 以 将 任务 分 发 到 机 器 学 习 模型 处 理 集群 上 ， 处 理 完成 后 再 回 到 其 他 系统 架构 上 。 另 外 ，RPC 模 式 下 的 模型 单元 与 系统 中 的 其 他 单元 会 隔离 开 来 ， 利 用 
Docker， 可 以 非常 简便 地 撤换 模型 ， 甚 至 实现 实时 无 间断 模型 蔡 换 。 

































































上 面 介绍 了 三 种 与 实时 机 器 学 习 有 关 的 RabbitMQ 队 列 模式 。AMQP 是 非常 灵活 的 ， 可 以 按照 实际 需求 进行 增 减 ， 设 计 出 更 符合 需求 的 队列 模式 。 在 下 面 的 几 节 中 ， 我 们 将 会 在 具体 应 用 场景 中 体会 
RabbitMQ 在 实时 机 器 学 习 中 的 应 用 。 











7.6 利用 Docker 快 速 部 署 RabbitMQ 
































使 用 Docker 安 装 RabbitMQ 是 一 件 轻而易举 的 事情 。 只 需 使 用 以 下 命令 即 可 开启 一 个 RabbitMQ 的 容器 虚拟 机 : 








docker run -d -p 5672:5672 rabbitmq:3 











是 RabbitMQ 客 户 端 和 服务 器 端的 通信 端口 。 











这 里 将 会 开启 RabbitMQ 服 务 器 上 的 5672 端 口 。 该 端 




















实际 应 用 中 仅仅 有 一 个 队列 服务 器 是 完全 不 够 的 ， 还 需要 有 图 形 化 的 状态 监控 界面 ， 以 及 服务 器 集群 ， 以 保证 长 时 间 稳定 运转 。RabbitMQ 的 开发 者 早已 预计 到 了 这 样 的 需求 。RabbitMQ 具 有 插件 功 
能 ， 能 够 安装 支持 第 三 方 开发 的 插件 。Management (管理 ) 插件 就 是 其 中 最 为 常用 的 一 个 。 要 使 用 已 安装 好 Management 插 件 的 RabbitMQ 容 器 虚拟 机 ， 只 需要 以 下 命令 即 可 : 





























docker run -d \ 
-p 5672:5672 \ 
-p 15672:15672 \ 
-e "RABBITMO DEFAULT USER=student" \ 
-e "RABBITMO DEFAULT PASS=happylearning123 \ 
rabbitmq: 3-management 











这 里 使 用 了 rabbitmq: 3-management 这 一 容器 镜像 ， 新 增 开放 了 15672 端 口 ， 作 为 RabbitMQ 网 页 管理 器 的 端口 。 另 外 通过 -e 设 置 了 虚拟 机 镜像 的 环境 变量 ， 内 含 的 用 户 名 和 密码 将 会 用 于 登录 
RabbitMQ 网 页 管理 界面 。 这 个 时 候 访问 http://localhost:15672， 将 会 出 现 如 图 7-8 中 所 示 的 登录 界面 。 






























































和 面 环境 变量 中 所 设置 的 用 户 名 和 密码 登录 ， 就 可 得 到 如 图 7-9 所 示 的 主管 理 界面 。 这 个 管理 界面 允许 我 们 通过 可 视 化 操作 进行 一 些 基 本 实验 、 查 阅 服务 器 状态 并 且 管 理 登录 用 户 名 称 等 操作 。 








使 用 襄 


























对 应 前 文 提 到 的 RabbitMQ 的 主要 组 成 部 分 ， 这 个 操作 界面 上 有 六 个 标签 ， 里 面 的 信息 是 进行 快速 查 错 不 可 或 缺 的 部 分 ， 对 应 的 功能 分 别 如 下 。 








“ 服务 器 总 览 (Overview) : 这 是 登录 到 RabbitMQ 管 理 页 面 的 首页 ， 主 要 内 容 包括 服务 器 的 主要 状态 、 链 接 、 频 道 、 交 换 中 心 及 队列 的 个 数 等 总 和 信息 。 


Rabbit MOQ Management - Chromium 
出 RabbitMQ Managerm x 


《 @ 口 localhost15672 


邮 RabbitIMO 


Login failed 


student 


Login 


Username: 


Password: 


图 7-8 ”RabbitMQ 网 页 管理 界面 的 登录 界面 
RabbitMQ Management - Chromium 
出 RabbitMQ Managen x 
《 @ 口 localhosE15672/#/ 


Q9 交 国名 全 直 








User: student 
Cluster: rabbit@ca865ccc46a2 (change) 
RabbitMQ 3.6.2, Erlang 18.3 


由 RabbitM0O 
Overview 


Overview 


Connections Channels Exchanges Queues Admin 


pb Totals 


v Node 


Node: rabbit@ca865ccc46a2 (More about this node) 


File descriptors (?) Socket descriptors Erlang processes Memory Disk space Rates 


《9 mode 


58 0 229 97MB 


524288 avallable 471767 available 1048576 available 1.5GB high watermark 


83GB basic 


48MB low watermark 
Paths 


Configfile /etc/rabbitmq/rabbitmq.config 


图 7-9 RabbitMQ 网 页 管理 界面 


“ 连接 (Connections) : 该 标签 会 显示 与 RabbitMQ 相 连 的 连接 的 具体 信息 ， 细 化 到 每 个 连接 的 地 址 、 用 户 名 、 当 前 状态 、 加 密 方式 、 传 输 速 度 等 。 


“ 频道 (Channel) : 每 个 连接 都 可 能 会 对 应 多 个 频道 。 该 标签 会 显示 每 个 频道 的 状态 、 队 列 中 的 消息 个 数 、 传 输 速 率 等 。 


Log out 








“ 交换 中 心 (Exchange) : 该 标签 包含 与 交换 中 心 有 关 的 所 有 信息 。 可 以 从 这 里 浏览 到 当前 服务 器 下 所 有 交换 中 心 的 列表 ， 以 及 每 个 交换 中 心 的 协议 方式 等 。 从 这 个 网 页 标签 里 面 也 可 以 通过 手动 选 


项 ， 添 加 和 删除 新 的 交换 中 心 。 





“ 队列 (Queue) : 该 标签 包含 所 有 队列 的 具体 信息 。 用 户 也 可 以 在 这 个 页 面 上 手动 添加 新 的 队列 。 更 为 方便 的 是 ， 用 户 可 以 点 击 每 个 队列 ， 查 看 队列 的 具体 信息 ， 并 手动 发 送 消息 。 如 图 7-10 所 示 ， 这 











个 界面 显示 了 一 个 队列 hello 的 队列 信息 (queued message) 和 消息 到 达 速 率 (message rate) ， 这 是 非常 重要 的 消息 监测 手段 。 同 时 为 了 方便 开发 人 员 的 调试 工作 ，RabbitMQ 的 管理 界面 允许 开发 人 员 通 过 网 页 
操作 向 任何 一 个 队列 中 发 送 和 接收 消息 。 如 图 7-11 所 示 ， 在 每 个 队列 管理 界面 的 发 送 消息 区 (Publish Message) ， 可 以 向 该 名 为 hello 的 队列 发 送 任意 消息 ; 同时 也 可 以 在 接收 消息 区 (Get Message) 接收 消 
息 。 这 大 大 简化 了 开发 人 员 的 调试 工作 。 









































RabbitMQ 可 以 说 是 开放 源 代码 社区 中 分 布 式 系统 的 典范 。 首 先 它 具有 非常 稳定 的 性 能 ， 可 以 完成 当今 工业 界 最 艰巨 的 任务 。 与 此 对 比 ， 其 他 队列 工具 ， 如 Kafka， 就 需要 额外 花费 大 量 精 力 来 配置 管理 
界面 。 


Rabbit MQ Management - Chromium 
出 RabbitMQ Managen x 
《 @ DD localhost:15672/#/queues/%2F/hello 文明 泪 全 和 三 


太 


~ User: student Log out 
qd | | Cluster: rabbit@5cbaed5f3136 (change) 


RabbitMQ 3.6.2, Erlang 18.3 


Overview Connections Channels Exchanges | Queues | Admin 





Queue hello 
v Overview 


Queued messages (chart: last minute) (?) 


人 Ready 
40 


a Unacked 


0 Total 
21:11:40 21:11:50 21:12:00 21:12:10 21:12:20 21:12:30 


Message rates (chart: last minute) (?) 





1.5/s Publish 1.0/s 
1.0/s 


Confirm 0.00/s 
0.5/s 


0.0/s Publish 
21:11:40 21:11:50 21:12:00 21:12:10 21:12:20 21:12:30 (In) 国 0.00/s 





Publish 四 0.00/s 


图 7-10 RabbitMQ 网 页 管理 界面 中 ， 一 个 名 为 hello 的 队列 的 信息 

















如 图 7-11 所 示 ， 在 RabbitMQ 网 页 管理 界面 的 队列 界面 下 ， 用 户 既 可 以 很 方便 地 通过 网 页 管理 界面 发 送信 息 ， 又 可 以 通过 网 页 管理 界面 接收 信息 。 


RabbitMQ Management - Chromium 
出 RabbitMQ Managen x 
《 @ | 日 localhost15672/#/queues 


Y Publish message 
Message will be published to the default exchange with routing key hello, routing it to this queue. 


Delivery mode: ' 2- Persistent ?| 
Headers: (?) | String 
Properties: (?) 


Payload: 您 好 ， 欢迎 学 习 实 时 机 器 学 习 其 乐 无 穷 


Publish message 


b Get messages 





图 7-11 RabbitMQ 网 页 管理 界面 中 提供 了 很 方便 的 工具 ， 以 用 于 发 送信 息 和 接收 信息 


7.7 利用 RabbitMQ 开 发 队列 服务 

















继续 前 面 利用 机 器 学 习 模型 对 股票 走势 进行 预测 的 例子 ， 本 章 将 通过 RabbitMQ 来 实现 实时 股票 数据 的 分 发 、 存 储 和 处 理 。 通 过 本 节 的 例子 ， 我 们 将 会 学 习 和 体会 RabbitM Q 的 以 下 功能 。 























“ 创建 队列 ， 并 向 队列 中 发 布 消息 。 


“ 监听 队列 ， 并 完成 实时 处 理 。 


:利用 局 形 消息 交换 中 心 实现 消息 分 发 。 





本 章 将 要 实现 的 架构 也 是 本 书 最 为 复杂 的 架构 ， 整 体 效 果 如 图 7-12 所 示 。 总 的 来 说 ， 该 架构 包含 了 下 面 三 个 主要 成 分 。 











:RabbitMQ: 用 RabbitMQ 作 为 整个 架构 数据 集散 的 核心 。 其 实现 了 原始 和 预测 数据 的 分 发 、 缓 存 的 功能 ， 同 时 还 作为 不 同 服务 之 间 的 桥梁 ， 承 载 了 整个 架构 。 
“ 实时 报价 存储 服务 : 这 里 用 LogStash 和 Elasticsearch 对 数据 进行 存储 。 后 面 的 章节 (第 9 章 ) 中 ， 将 会 利用 Elasticsearch、LogStash、Kibana 集 群 对 数据 实现 实时 可 视 化 。 


“ 实时 价格 变动 预测 服务 : 这 里 利用 前 面 章 节 (第 4 章 ) 中 建立 的 Scikit-learmn 预 测 Pipeline 对 股价 变动 进行 预测 。 为 了 保证 预测 服务 器 的 无 状态 性 ， 我 们 将 报价 数据 缓存 在 了 Redis 高 速 缓存 中 。 











为 了 提高 代码 在 本 书 中 的 可 读 性 ， 我 们 对 该 架构 的 功能 进行 了 大 刀 阔 荐 的 简化 ， 整 个 架构 只 能 预测 单一 股票 的 价格 变动 。 如 果 读 者 有 兴趣 在 实际 环境 中 运用 此 架构 ， 还 需要 进行 若干 修改 。 本 节 的 末尾 
提出 了 多 项 值得 改进 的 方向 ， 建 议 有 兴趣 的 读者 进行 尝试 。 
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图 7-12 RabbitMQ 实 时 股价 走势 预测 系统 架构 








7.7.1 “准备 案例 材料 


下 载 本 章 实例 程序 和 数据 ， 只 需要 从 本 书 官方 Github 站 点 下 载 代码 即 可 : 





git clone https://github.com/real-time-machine-learning/4-rabbitmq 





本 章 会 运用 到 Docker 作 为 集群 配置 的 方法 ， 其 余 软 件 均 通 过 Docker 配 置 安装 。 只 需 在 命令 行 的 本 章节 代码 目录 中 运行 以 下 代码 ， 即 可 启动 该 集群 : 





docker-compose up 





另外 ， 本 案例 使 用 了 Elasticsearch 5.0 的 Docker 镜 像 ， 在 某 些 电 脑 上 (如 笔者 的 ) ， 需 要 对 系统 环境 变量 进行 少许 调整 ， 才 能 正常 运行 。 需 要 运行 以 下 命令 : 





sudo sysctl -~w wm.max map count=262144 











图 7-12 是 RabbitMQ 实 时 股价 走势 预测 系统 架构 。 作 为 本 章 案例 ， 其 将 会 实现 实时 报价 处 理 队列 (A) 和 预测 结果 处 理 队列 (B) 两 个 功能 。 


7.7.2 ”实时 报价 存储 服务 


实时 报价 存储 服务 可 利用 RabbitMQ、LogStash、Elasticsearch 实 现 数据 的 实时 存储 。 本 部 分 架构 如 图 7-13 所 示 。 
















实时 报价 消 
息 交 换 中 心 





LogStash Elasticsearch 


报价 
储存 队列 











7-13 ”实时 数据 存储 架构 








其 中 各 个 成 员 的 职责 具体 如 下 。 
: RabbitMQ: 利用 扇形 交换 中 心 对 实时 报价 数据 进行 分 发 ， 利 用 队列 进行 缓存 。 
“ LogStash: 和 运行 初期 ， 对 RabbitMQ 的 队列 进行 配置 和 初始 化 ， 对 Elasticsearch 的 存储 索引 进行 配置 和 初始 化 。 运 行 开始 后 ， 对 实时 到 来 的 数据 进行 简单 的 转换 ， 并 且 存 储 到 Elasticsearch 中 。 


“Elasticsearch: 存储 实时 报价 数据 的 索引 。 





本 模块 的 Docker Compose 配 置 文件 具体 如 下 : 





rabbitmq: 
image: rabbitmq:3-management 
ports: 
— "8080:15672" 


logstash: 
build: ./logstash/ 
links: 
- rabbitmq 
- elasticsearch 
elasticsearch: 
image: elasticsearch:5.0 


ports: 
— "9200:9200" 




















可 以 看 到 这 里 直接 引用 了 RabbitMQ 和 Elasticsearch 5.0 的 Docker 容 器 虚拟 机 镜像 ， 并 且 进 行 了 端口 映射 ， 以 方便 调试 观察 。 
































本 部 分 架构 看 似 复杂 ， 但 是 配置 工作 量 非 常 低 : 需要 进行 少许 配置 的 只 有 LogStash 一 个 服务 。LogStash 是 一 个 功能 强大 的 开放 源 代码 项 目 ， 其 旨 在 整合 数据 的 获取 、 转 换 和 存储 操作 ， 将 各 种 数据 来 源 
和 存储 工具 通过 LogStash 进 行 整合 ， 自 动 化 其 中 的 所 有 操作 。 所 以 不 需要 再 编写 任何 代码 ， 即 可 实现 数据 从 RabbitMQ 队 列 到 Elasticsearch 的 转换 和 存储 工作 。 











配置 LogStash 服 务 的 Docker 镜 像 只 需要 以 下 代码 即 可 : 


FROM logstash:5.0 

MAINTAINER Hesen Peng (hesen.peng@gmail .com) 
COPY sample-template.json / 

COPY logstash.conf / 

CMD ["-f", "/logstash.conf"] 

















请 注意 到 这 里 使 用 了 对 LogStash 的 配置 文件 logstash.conf， 该 配置 文件 如 下 : 





input 

{ 
rabbitmq 
{ 


host => rabbitmg 
exchange => stock price 
exchange type => Fanout 
queue => random queue 

















Fall 
民 
»t 


其 内 容 非常 直观 ， 包 含 了 输入 、 输 出 配置 两 大 部 分 。 输 入 部 分 ， 告 诉 LogStash 输 入 的 来 源 是 RabbitMQ， 其 中 服务 器 地 址 为 http://rabbitmq， 消 息 交 换 中 心 名 为 stock_price， 消 息 交 换 中 心 为 
换 中 心 ， 读 取 的 队列 名 为 random_queue。 
































LogStash 支 持 消息 队列 、 文 件 、Github、 传 统 关系 型 数据 库 等 多 种 输入 来 源 。 对 于 大 多 数 应 用 场景 ， 只 需要 少许 配置 ， 即 可 完成 作业 。 下 面 是 其 中 最 新 的 文档 列表 链接 地 
址 https://www.elastic.co/guide/en/logstash/current/input-plugins.html。 








在 输出 配置 中 ， 我 们 告诉 LogStash 输 出 的 目的 地 是 Elasticsearch， 服 务 器 地 址 为 http://elasticsearch， 存 储 数据 的 索引 名 为 stock_price-[ 日 期 ]|， 文 件 类 型 名 为 tick-price。 为 了 配置 该 文件 类 型 ， 这 里 
还 引入 了 配置 文件 ample-templatejson， 其 对 所 有 以 stock_price 开 头 的 索引 都 适 上 























Output 


elasticsearch 

{ 
hosts => elasticsearch 
index => "stock price-%{+YYYY.MM.dd}" 
document type => "tick-price" 
template => "/sample-template.json" 
template name => "stock price-*" 

















类 似 的 ，Logstash 的 输出 格式 支持 也 是 多 种 多 样 的 ， 其 中 常用 的 包括 传统 关系 型 和 非 关 系 型 数据 库 、Elasticsearch、Email、 各 种 消息 队列 。 对 于 常用 的 操作 ， 也 只 需要 进行 少许 配置 。 这 里 有 最 新 的 
官方 文档 https://www.elastic.co/guide/en/logstash/current/output-plugins.html。 























对 Elasticsearch 的 索引 配置 文件 属于 JSON 格 式 ， 内 容 非常 直观 。 这 里 的 主要 目的 是 设置 输入 数据 的 每 个 字段 ， 我 们 对 股票 代码 (symbol) 、 时 间 戳 (timestamp) ， 以 及 价格 (price) 分 别 设置 了 对 
应 的 格式 。 后 面 的 章节 中 将 会 对 Elasticsearch 做 深度 介绍 。 








"template":"stock price-*", 
"mappings":{ 
"counter":{ 
"properties":{ 
"symbol":{ 
"type": "text" 
1 

"timestamp":{ 


"type": "gate" 


"type":"float" 


7.7.3 ”实时 走势 预测 服务 



































在 实时 走势 预测 服务 中 ， 我 们 力求 使 用 前 面 章节 训练 的 机 器 学 习 模型 实时 预测 苹果 公司 股价 的 走向 。 本 部 分 架构 如 图 7-14 所 示 ， 该 部 分 由 RabbitMQ、Redis 和 Python Scikit-learn 预 测 程序 构成 。 每 个 
成 员 的 职责 具体 如 下 。 


























RabbitMQ 






时 报价 处 理 队列 
处 理 队 列 


价格 变化 预测 模型 Redis 


预测 结果 处 
理 交 换 中 心 


则 结果 处 理 队 列 
储存 队列 


SE 


B. 预 











7-14 ”实时 股价 走势 预测 服务 





“ RabbitMQ: 利用 扇形 交换 中 心 对 实时 报价 数据 进行 分 发 ， 利 用 队列 进行 缓存 。 
“ Redis: 缓存 最 近 时 间 段 的 股票 报价 信息 。 


“ Scikit-learn 预 测 服务 : 在 运行 初期 对 RabbitMQ 队 列 、Redis 存 储 进行 初始 化 。 在 运行 过 程 中 ， 更 新 并 读 取 Redis 缓 存 中 最 近 时 间 段 的 报价 ， 进 行 预测 ， 并 将 预测 结果 发 送 到 预测 结果 队列 中 。 





该 部 分 架构 的 Docker Compose 配 置 文件 具体 如 下 : 





rabbitmq: 
image: rabbitmq:3-management 
ports: 
= "E0807156572" 
ml model: 
build: ./ml-model 
links: 
- rabbitmq 
- redis 
redis: 
image: redis 
ports: 
= W63798379" 

















可 以 看 到 这 里 直接 引用 了 RabbitMQ 和 Redis 官 方 镜像 ， 需 要 代码 编写 的 部 分 仅 为 ml_model 容 器 虚拟 机 的 内 容 。 


配置 ml_model 的 Docker 容 器 虚拟 机 镜像 只 需要 以 下 内 容 : 





FROM python:3.5 

WORKDIR /model service/ 

COPY requirements.txt /model service/ 
RUN pip install -~r requirements.txt 
COPY *.py /model service/ 

COPY *.PyData /model service/ 

COPY *.npy /model service/ 

CMD ["python", "model service.py"] 





本 部 分 架构 的 关键 存储 在 model_service.py 这 一 文件 中 ， 它 是 数据 处 理 、 走 势 预 测 的 核心 ， 下 面 就 来 条 分 缕 析 地 进行 介绍 。 








首先 ， 需 要 载 入 相关 程序 包 ， 其 中 包括 RabbitMQ 的 Python 客户 端 pika、Scikit-learn 相 关 模 块 及 Pandas。 然 后 将 Redis 的 基本 操作 放 入 RedisDataBridge 类 中 ，RedisDataBridge 类 负责 进行 数据 导入 
工作 : 





import pika 

import time 

import json 

import logging 

from sklearn.pipeline import Pipeline 

from sklearn.externals import joblib 
import pandas as pd 

from timeseriesutil import * 

from redis operation import RedisDataBridge 
logging.getLogger () .setLevel (logging.INFO) 





在 运行 初期 ， 需 要 对 RabbitMQ 的 队列 和 消息 交换 中 心 进行 初始 化 。 我 们 会 初始 化 一 个 名 为 stock_price 的 扇形 消息 交换 中 心 ， 并 且 将 名 为 ml_queue 的 队列 和 该 交换 中 心 进行 配对 。 至 此 ， 该 交换 中 心 
已 经 和 两 个 队列 进行 了 配对 ， 到 达 该 交换 中 心 的 所 有 信息 ， 都 会 同时 分 发 到 两 个 队列 中 进行 处 理 : 





rabbitmq host = "rabbitmq" 
live data exchange name = " 
live data queue name 
result exchange name 
result queue name = "prediction result queue" 
connection = pika.BlockingConnection( 
pika.ConnectionParameters (host = rabbitmq host, 
connection attempts = 10, 
retry delay = 20)) 
logging.info (" 成 功 连接 RabbitMO %s" % rabbitmq host) 
channel live data connection.channel () 
channel live data.exchange declare (exchange = live data exchange name, 
type = "fanout") 
channel live data.queue declare (queue = live data queue name, 
exclusive True) 
channel live data.queue bind(exchange = live data exchange name, 
queue = live data queue name) 


stock Price" 
"ml_queue" 
"prediction result" 











注意 ， 这 里 对 消息 交换 中 心 进行 了 定义 ,但 在 7.7.2 节 ， 通 过 LogStash 也 对 这 一 同名 消息 交换 中 心 进行 了 初始 化 ， 是 否 会 出 现 定义 撞车 的 问题 呢 ?RabbitMQ 的 创始 人 早 就 意识 到 了 这 一 问题 ， 让 交换 中 





心 和 队列 的 定义 具有 了 窜 等 (idempotent) 的 性 质 ， 也 就 是 说 ， 同 名 的 对 象 通过 多 次 初始 化 ， 不 会 改变 性 质 。 


























利用 机 器 学 习 模型 对 前 来 的 数据 进行 预测 分 析 之 后 ， 需 要 将 结果 传 入 下 游 系统 中 进行 使 
务 只 需要 读 取 对 应 该 扇形 交换 中 心 的 队列 即 可 : 





。 这 里 仍然 利 














RabbitMQ， 将 分 析 完成 的 数 








居 放 入 一 个 RabbitMQ 的 扇形 交换 中 心 ， 下 游 使 用 预测 结果 的 服 





channel results connection.channel () 
channel results.exchange declare (exchange = result exchange name, 
type "fanout") 
channel results.queue declare (queue = result queue name) 
Channel results.queue bind(exchange = result exchange name, 
加 queue = result_queue_name) 

















实战 中 往往 需要 读 取 除 了 队列 之 外 的 其 他 数据 。 这 里 利 








Redis 对 最 近 多 次 的 报价 进行 了 缓存 。 下 面 就 来 创建 与 Redis 高 速 缓存 之 间 的 连接 





redis data bridge = RedisDataBridge ("redis", read length = 12) 








回 


下 面 就 是 本 模块 的 关键 之 处 : Python 客户 端 接收 到 RabbitM Q 消 息 之 后 ， 会 通过 





回 呼 (call back) 的 方法 运行 对 应 的 操作 。 这 里 将 所 有 








呼 操作 定义 在 一 个 名 为 ProcessPrice 的 函数 中 。 下 面 的 代码 完 





成 了 该 函数 和 队列 的 绑 定 ， 并 且 开 始 处 理 程序 : 





channel live data.basic consume (ProcessPrice, 
queue = live data queue name, 
no _ack: aa 加 加 
1ogging.info(" 成 功 完成 初始 化 ， 开 始 接收 消息 ") 


channel live data.start consuming() 














ProcessPrice 函 数 执行 的 内 容 包 含 将 数据 存储 到 Redis、 读 取 最 近 数 据 、 进 行 预测 ， 最 后 将 结果 存储 到 队列 中 四 部 分 。 





model = joblib.load("saved-stock-pipeline.PyData") 
def ProcessPrice (channel, method, properties, body): 
data json.loads (body.decode ("utf-8")) 
Symbol = data["symbol"] 
timestamp = data["timestamp"] 
price = data["price"] 
redis data bridge.update quote(symbol, price, timestamp) 
price data = redis data bridge.get latest quote (symbol, 
read length = 11) 


if price data.shape[0] >= 11: 


prediction = model .predict (price data) [0] 

logging data = {"symbol": symbol, 
"timestamp": timestamp, 
"prediction": prediction} 


channel results.basic publish (exchange 
routing key = 
body = json.dumps (logging data)) 


result exchange name, 




















这 里 Redis 数 据 相关 操作 都 被 放 到 了 RedisDataBridge 这 一 类 中 。 具 体内 容 如 下 。 首 先 引 入 了 相关 模块 : 








import redis 

import json 

import pandas as pd 
import pickle 
































其 中 RedisDataBridge 主 要 包含 两 个 函数 : 添加 新 的 单个 数据 到 缓存 中 (update_quote) 和 读 取 最 新 数据 (get latest_quote) 。 


体内 容 如 下 : 





def parse response _ core (input_blob) : 

return pickle.1oads (input blob) 
def parse response (input blob list): 

pandas DataFrame™""" 

parsed list = list (map (parse response core, input blob list)) 

return pd.DataFrame (parsed list) 
class RedisDataBridge () : 加 

def init (self, host, read length 

Self.cIient = redis.Redis (host = 

self.read length = read length 
self.price prefix = price prefix 
update quote(self, symbol, price, timestamp): 
key = self.price prefix + symbol 
value {"timestamp": timestamp, "Close": price} 
self.client.1lpush (key, pickle.dumps (value)) 
get latest quote(self, symbol, read length= None): 
if read length is None: 

read length = self.read length 
key = self.price prefix + symbol 
result blob = self.client.lrange (key, 0, read length) 
result = parse_ response (result blob) 
return result 


12, price prefix 
st) 


mo : 
村 ho 


def 


gef 





7.7.4 ”整合 运行 实验 


如 果 你 认真 地 读 完了 前 面 的 代码 ， 那 么 请 将 本 书 封 面 和 这 段 话 拍 下 来 ， 发 在 朋友 圈 并 为 自己 点 个 赞 一 一 你 真是 一 位 一 丝 不 苟 的 好 读者 ; 如 果 你 直接 跳 过 了 


和 这 段 话 拍 下 来 ， 发 在 朋友 圈 并 为 自己 点 个 玩 一 一 你 真是 一 位 机 智 聪 额 的 好 读者 。 








现在 到 了 检验 真理 查看 架构 效果 的 时 候 啦 。6.5 节 介绍 过 了 Docker Compose 的 











法 ， 启 动 前 面 这 个 复杂 的 集群 只 需 下 面 的 命令 即 可 : 








表 


面 的 代码 来 到 这 里 ， 那 么 也 请 你 将 本 书 封面 





docker-compose up 

















输入 命令 之 后 ， 一 般 情 况 下 ， 你 会 看 见 大 量 的 日 志 输出 ， 其 中 需要 注意 的 是 在 model-service.py 中 输出 的 几 个 日 志 序 列 。 例 如 在 笔者 的 电脑 上 运行 输出 了 如 下 的 信息 : 





ml_ model 1 | INFO:root: 成 功 连接 RabbitMO rabbitmq 
ml_model 1 | INFO:root: 成 功 完成 初始 化 ， 开 始 接收 消息 








这 代表 模型 预测 模块 已 经 初始 化 完成 。 由 于 该 模块 的 初始 化 需要 依赖 于 RabbitMQ， 因 此 这 个 时 候 可 以 登录 到 RabbitMQ 的 管理 界面 中 进行 实验 操作 。 











上 。 现 在 ， 只 需要 访 








图 





形 化 界面 进行 调试 和 实验 。 在 前 面 Docker Compose 的 配置 中 ， 我 们 将 RabbitMQ 的 管理 页 面 映射 到 了 运行 服务 器 的 8080 端 
密码 ( 均 为 guest) 。 


RabbitMQ 的 管理 镜像 让 我 们 可 以 轻易 地 通过 | 
http://localhost:8080， 即 可 登录 RabbitMQ 的 管理 界面 。 这 里 可 能 会 用 到 访客 用 户 名 和 














可 





点 击 并 进入 页 面 顶端 的 Exchange 标 签 (消息 交换 中 心 管理 界面 ) ， 可 以 看 到 列表 中 已 经 有 了 名 为 stock_price 和 prediction_result 的 两 个 消息 交换 中 心 。 它 们 的 交换 中 心 类 型 都 是 扇形 (fanout) ， 如 








网 





7-15 所 示 。 
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当前 RabbitMQ 中 的 消息 交换 中 心 列表 
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点 击 stock_price 交 换 中 心 ， 可 以 来 到 其 专 








属 的 配置 调试 页 面 。 点 击 Bindings (连接 ) 一 栏 ， 可 以 看 到 与 它 相关 联 的 两 个 消息 队列 ml_queue 和 random_queue， 如 图 7-16 所 示 。 





Bindings 





This exchange 


| 


Routing key Arguments 


ml_queue 


logstash 
random_queue 


Add binding from this exchange 





图 7-16 ”和 stock_price 相 关联 的 两 个 消息 队列 


与 此 同时 ，RabbitMQ 的 管理 界面 使 得 可 以 轻易 地 向 消息 交换 中 心 和 队列 中 加 入 测试 信息 ， 在 当前 stock_price 消 息 交 换 中 心 页 面 的 Publish Message (发 布 消 息 ) 一 栏 中 ， 可 以 输入 一 条 消息 ， 以 测试 
下 游 服务 的 反馈 ， 如 图 7-17 所 示 。 





v Publish message 


Routing key: 


Delivery mode: | 1- Non-persistent "| 


Headers: (?) 


Properties: (?) 


Payload: {"symbol":"aapl", "timestamp": "2016-12-12T09:45:01", "price": 100.12} 











图 7-17 ”向 stock_price 消 息 交 换 中 心 发 布 实时 报价 信息 














{"symbol":"aapl", "timestamp": "2016-12-12T09:45:01", “price": 100.12} 














上 面 的 信息 每 发 布 一 次 ， 都 可 以 在 Docker 集 群 的 输出 日 志 中 看 到 最 新 的 最 近 多 次 报价 的 信息 。 在 报价 输入 积累 到 了 11 次 以 上 之 后 ， 可 以 在 prediction_result_queue 队 列 信息 中 看 到 增加 的 预测 结果 信 
息 。 














最 后 ， 还 可 以 通过 LogStash 将 数据 存储 到 Elasticsearch 中 去 ， 本 书 将 会 在 第 9 章 详细 介绍 Elasticsearch 的 用 法 ， 为 了 满足 大 家 的 好 奇 心 ， 可 以 通过 以 下 命令 查看 部 分 Elasticsearch 中 存储 的 报价 数据 : 








curl http://localhost:9200/stock price-*/tick-price/_search 


7.7.5 ”总结 和 改进 








通过 本 案例 ， 我 们 体会 了 用 RabbitMQ 作 为 机 器 学 习 架 构 的 主心骨 ， 连 接 各 个 相关 服务 的 方式 。 为 了 降低 本 案例 的 阅读 难度 ， 本 章 对 其 中 的 功能 进行 了 大 幅 删 减 。 如 果 想 用 这 个 架构 赚钱 ， 还 需要 投入 
大 量 精力 ， 对 其 进行 完善 和 优化 。 当 然 ， 本 书 的 目的 是 授 人 以 渔 ， 具 体 如 何 交 易 等 问题 就 留 给 大 家 自己 解决 了 。 对 于 通用 实时 机 器 学 习 场 景 中 的 应 用 ， 这 里 提出 以 下 几 点 改进 的 地 方 。 















































1. 预 测 激发 模式 


本 案例 中 ， 每 个 预测 都 是 被 新 数据 的 到 来 所 启动 的 ， 如 果 没 有 新 的 数据 到 来 ， 模 型 预测 就 不 会 启动 。 这 样 的 模式 适合 于 电 商 作弊 检测 、 物 流 预 报 等 场景 ， 而 对 于 自动 化 交易 这 样 的 场景 ， 被 动 激发 式 的 
预测 不 一 定 是 最 优 的 。 例 如 ， 数 据 获取 来 源 可 能 因为 网 络 原因 延迟 了 新 数据 的 发 布 ， 而 这 个 时 候 系统 中 正在 进行 交易 ， 在 没有 新 数据 到 来 的 情况 下 ， 可 能 仍然 需要 进行 一 些 交 易 ， 以 防止 损失 。 























为 此 ， 机 器 学 习 模块 的 激发 可 能 应 该 更 改 为 按时 间 间 隔 的 激发 模式 。 而 机 器 学 习 预 测 模块 的 架构 也 就 演变 为 如 图 7-18 所 示 的 模式 ， 这 样 的 架构 设计 保证 了 数据 存储 和 预测 模块 的 分 离 ， 更 有 利于 系统 的 
稳定 性 。 这 里 新 数据 通过 LogStash 直 接 存 储 到 了 Redis 高 速 缓存 中 ， 机 器 学 习 预 测 模型 自发 地 从 Redis 缓 存 数据 库 中 读 取 最 新 数据 。 这 样 自发 启动 预测 的 架构 让 机 器 学 习 模 型 的 使 用 变 得 更 灵活 。 与 此 同时 ， 
前 端 报价 数据 的 处 理 和 后 端 预测 程序 相 分 离 ， 也 更 易于 排 错 等 工作 的 进行 ， 更 有 利于 系统 的 稳定 性 。 





























RabbitMQ 
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图 7-18 ”自动 激发 预测 模型 的 架构 设计 








2. 模 型 自动 更 新 














本 案例 中 的 模型 是 通过 文件 的 形式 在 预测 服务 启动 的 时 候 被 载 入 的 。 而 实时 机 器 学 习 的 很 多 场景 中 ， 模 型 可 能 需要 实时 更 新 。 模 型 实时 更 新 在 工业 界 中 其 实 一 直 都 是 一 个 老大 难 问题 ， 就 连 一 些 世 界 领 

















先 的 公司 ， 也 仍然 采取 了 一 些 非常 落后 的 方式 ， 让 机 器 学 习 模 型 通过 代码 部 署 的 途径 被 分 发 到 机 器 学 习 集群 中 。 这 样 的 架构 会 大 大 减 慢 模 型 更 新 的 速度 ， 因 为 代码 部 署 可 能 会 带 来 服务 重启 等 工作 。 






































2016 年 被 苹果 公司 收购 的 Turi 公 司 [在 机 器 学 习 的 运 维 方 面 做 出 了 巨大 贡献 ， 该 公司 发 布 的 Turi Machine Learning Platform 中 对 机 器 学 习 的 自动 化 部 署 做 出 了 极 具 前 瞻 性 的 设计 。 可 喜 可 贺 的 是 该 平 


















































台 也 在 Python 上 编写 ， 其 思想 可 以 很 容易 借用 到 其 他 场景 中 。 














Turi 自 动 化 模型 更 新 的 思想 可 以 总 结 为 以 下 三 步 。 




















1) 创建 模型 预测 对 象 ， 该 对 象 包含 机 器 学 习 预 测 模型 和 更 新 模型 所 需 的 消息 队列 ， 同 时 还 可 以 通过 调用 该 对 象 的 预测 函数 进行 预测 。 














2) 更 新 模型 的 时 候 ， 新 模型 通过 二 进 制 包 的 形式 被 发 布 到 模型 更 新 队列 中 。 模 型 预测 对 象 从 队列 中 读 取 新 模型 ， 更 新 自身 内 含 的 模型 。 这 一 步 将 在 背景 线程 中 完成 。 


3) 在 进行 预测 的 时 候 ， 需 要 返回 预测 数据 配备 模型 版 本 信息 ， 以 便 后 期 分 析 。 








这 里 传输 模型 所 用 的 队列 也 可 以 被 共享 文件 夹 、 云 端 位 置 等 取代 。 








四] 该 公司 一 直 在 改名 字 ， 也 曾经 叫 作 Dato 和 GraphLab。 








数据 是 一 切 机 器 学 习 系 统 的 核心 。 这 里 的 数据 可 能 是 狭义 上 的 文本 、 数 字 等 字段 ， 也 可 能 是 图 像 、 声 音 和 模型 。 实 时 机 器 学 习 实战 对 数据 库 的 要 求 尤为 苛刻 ， 所 以 在 介绍 完了 基本 Docker 架 构 之 后 ， 本 











章 就 来 对 数据 库 进 行 重点 介绍 。 


























当然 ， 现 如 今 数据 库 的 选择 非常 多 ， 每 种 数据 库 的 应 用 细 化 下 来 都 可 以 写成 一 本 专业 的 图 书 。 本 章 力 图 介绍 数据 库 的 选择 及 架构 设计 中 需要 考虑 的 问题 ， 使 大 家 在 实战 中 可 以 对 数据 库 应 用 的 各 种 情况 



































考虑 周全 ， 在 必要 的 情况 下 做 出 取舍 和 组 合 ， 甚 至 采用 多 个 数据 库 共同 完成 数据 存储 、 缓 存 和 模型 部 署 的 工作 。 相 信 通 过 本 章 的 学 习 ， 大 家 在 自己 的 工作 中 对 数据 库 的 选择 和 系统 架构 的 设计 能 有 相应 的 体 
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SQL 与 NoSQL， 主 流 数 据 库 分 类 






































相信 大 家 对 各 种 数据 库 的 名 字 已 经 有 所 耳闻 。Oracle 公 司 凭借 其 在 企业 级 别 数据 库 中 的 领导 地 位 进入 了 世界 五 百 强 ， 并 且 拥 有 了 难以 撼动 的 地 位 ; 1BM 任 着 其 DB/2 的 核心 优势 ， 一 直 担当 着 我 国 金融 数 





























据 库 主心骨 的 重任 ; MySQL 作为 开放 源 代码 社区 最 悠久 的 数据 库 之 一 ， 支 撑 了 众多 大 大 小 小 的 应 用 ; 亚马逊 为 自己 的 云 服务 开发 了 高 可 用 、 高 可 扩展 数据 库 DynamoDB; 谷歌 为 了 分 析 大 量 数据 ， 设 计 并 
























































开发 了 BigTable， 成 为 了 Hadoop HBase 的 前 身 .…… 那 么 ， 对 于 这 些 门类 繁多 的 数据 库 ， 会 有 什么 规律 呢 ? 我 们 应 该 怎样 进行 选择 ”本 节 将 会 对 数据 库 进 行 一 个 大 致 分 类 和 介绍 。 














8.1.1 ”关系 型 数据 库 




















关系 型 数据 库 (Relational Database Management System，RDBMS) 是 历史 最 为 悠久 的 一 类 数据 库 。 常 见 的 关系 型 数据 库 包 括 开源 的 MySQL、PostgreSQL， 商 业 闭 源 的 OracleSQL、 微 软 











MSSQL 等 。 

















数据 在 关系 型 数据 库 中 以 表单 的 形式 存在 。 每 个 数据 库 都 可 以 有 多 个 表单 。 每 个 表单 包含 的 字段 名 (格式 ) 往往 在 数据 库 创 建 初期 就 已 经 确定 好 了 ， 后 期 若 要 对 表单 格式 进行 更 改 ， 则 需要 进行 一 些 伤 
筋 动 骨 的 操作 ， 例 如 锁 住 数据 库 等 。 关 系 型 数据 库 的 表单 中 ， 每 个 表单 的 每 一 行 代表 一 条 记录 ， 每 一 列 代表 一 个 变量 。 同 一 表单 中 的 不 同 记录 的 格式 基本 上 是 完全 相同 的 。 













































































关系 型 数据 库 的 不 同 表单 之 间 可 能 是 有 关联 的 。 例 如 在 实时 股票 数据 中 ， 存 储 实时 报价 的 表单 包含 了 时 间 戳 、 股 票 代 码 、 报 价 、 成 交 量 等 信息 ， 存 储 股票 信息 的 表单 中 包含 了 股票 代码 、 公 司 市 盈 率 、 
市 值 等 信息 。 这 两 个 表单 可 能 通过 股票 代码 为 关系 链接 关联 起 来 。 



























































关系 型 数据 库 的 一 个 最 大 特点 ， 大 概要 算 SQL 的 应 用 了 。 几 乎 所 有 关系 型 数据 库 都 支持 SQL 语法 与 之 进行 交互 ， 这 大 大 方便 了 程序 的 标准 化 ， 降 低 了 开发 成 本 。 





















































计算 机 产生 的 初期 ， 数 据 库 的 应 用 场景 主要 在 金融 等 领域 。 这 些 领 域 对 数据 的 一 致 性 (consistency) 具有 非常 严格 的 要 求 。 例 如 ， 张 三 通过 银行 账户 付 给 了 李 四 10 块 钱 ， 这 样 的 转账 操作 在 数据 库 里 面 
需要 经 过 如 下 两 项 改动 。 























“ 从 张 三 的 账 上 减 去 10 块 。 


“ 在 李 四 的 账 上 增加 10 块 。 
































关系 型 数据 库 的 设计 力求 保证 数据 的 真实 性 ， 上 面 两 个 操作 要 么 全 都 完成 ， 要 么 都 没有 完成 。 如 果 执 行 两 项 操作 的 时 候 ， 因 为 数据 库 出 现 问题 ， 导 致 张 三 被 扣 钱 了 ， 而 李 四 没 有 收 到 款项 ， 那 么 这 样 的 
数据 库 就 不 是 一 个 好 的 关系 型 数据 库 。 





























当然 ， 关 系 型 数据 库 也 有 一 些 为 人 诉 病 的 弱点 。 例 如 关系 型 数据 库 更 改 表单 字段 需要 通过 大 量 工作 来 完成 ， 在 数据 库 和 表单 设计 之 初 ， 系 统 架构 人 员 必 须 设计 好 表单 的 字段 及 类 型 。 在 2000 年 以 后 ， 众 
多 初创 公司 都 以 “ 快 、 糙 、 猛 ” (move fast and break things) 的 风格 开发 自己 的 后 端 ， 如 果 采 用 关系 型 数据 库 ， 则 可 能 会 拖 慢 业 务 适 应 变化 的 速度 。 与 此 同时 ， 关 系 型 数据 库 会 在 处 理 大 量 高 并 发 数据 
同时 读 写 的 时 候 ， 仍 然 力图 保证 数据 的 一 致 性 ， 这 可 能 会 产生 大 量 延 迟 。 










































































8.1.2” 非 关系 型 数据 库 NoSQL 















































非 关系 型 数据 库 的 理论 早 在 1980 年 前 已 经 提出 ， 但 是 非 关系 型 数据 库 的 大 量 出 现 和 应 用 是 直到 2000 年 以 后 才 出 现 的 。 大 多 数 非 关系 型 数据 库 在 设计 之 初 据 弃 了 关系 型 数据 库 强 一 致 性 的 要 求 ， 改 而 追求 
数据 库 的 高 可 用 性 和 高 速 读 取 。 常 见 的 非 关系 型 数据 库 包 括 Cassandra、HBase、Redis、Neo4j 等 。 

































































外 ， 非 关系 型 数据 库 试图 采用 更 灵活 的 方式 来 接纳 不 同 格式 的 数据 ， 按 照 数据 文件 格式 分 类 ， 非 关系 型 数据 库 又 可 以 分 为 下 面 几 个 大 类 。 




















(1) 键 值 数据 库 











键 值 数据 库 (key-value database) 的 主要 特色 是 所 有 数据 都 以 键 (key) 和 值 (value) 的 方式 成 对 存在 的 ， 读 取 的 时 候 通 过 键 (如 张 三 ) ， 从 数据 库 中 读 取 值 (如 当前 存款 数额 20 块 ) 。Redis 是 最 
的 键 值 数据 库 。 


























我 








(2) 文件 数据 库 








文件 数据 库 (document database) 的 主要 特色 是 所 有 记录 都 以 文本 的 形式 存在 ， 文 件数 据 库 中 的 每 一 条 数据 都 可 能 是 多 种 JSON 复 杂 格 式 ， 例 如 有 关 张 三 的 微 博 账号 下 面 ， 可 能 有 一 个 字段 是 以 字符 
串 列表 的 形式 存在 ， 里 面包 含 了 张 三 的 所 有 粉丝 账户 。 常 用 的 文件 数据 库 包括 CouchDB、MongoDB 等 。 












































(3) 列 值 数据 库 





























列 值 数据 库 (column-based database) 的 结构 和 键 值 数据 库 类 似 ， 每 条 记录 的 每 个 字段 均 按照 列 的 形式 分 布 式 存在 ， 以 适应 大 量 数据 分 布 式 存 储 和 快速 读 取 的 要 求 。 比 较 常 用 的 列 值 数据 库 包括 
HBase、Cassandra 等 。 

















(4) 图 数据 库 


















































在 实际 应 用 中 我 们 往往 会 对 一 些 图 状 的 数据 进行 存储 和 读 取 ， 例 如 社交 网 络 、 公 交 线路 等 。 为 了 回答 这 样 的 问题 我 们 往往 会 对 多 个 实体 构成 的 网 络 进行 读 取 访问 。 例 如 ， 实 际 应 用 中 我 们 可 能 需要 查找 
北京 101 路 公交 车 和 102 路 公交 车 共享 的 公交 站 台 附 近 的 餐馆 。 这 样 的 操作 在 传统 数据 库 中 需要 多 个 跨 表 接 合 操作 才能 完成 ， 但 是 在 图 数据 库 (graph database) 中 ， 只 需要 一 行 命令 就 可 以 得 到 结果 。 






































8.2 数据库 的 性 能 























在 讲解 理论 之 前 ， 我 们 先 想 一 想 ， 一 个 理想 的 数据 库 ， 它 应 该 具有 什么 样 的 性 能 ?计算 机 理论 学 家 总 结 出 了 耐 分 割 性 (partition tolerance) 、 一 致 性 (consistency) 、 可 用 性 (availability) 这 三 个 
方面 。 在 实际 应 用 中 ， 数 据 库 往往 无 法 同时 具有 这 三 个 方面 的 特性 ， 而 只 能 按 实际 情况 进行 权衡 处 理 。 


























8.2.1 耐 分 割 








现代 的 数据 库 往往 是 一 个 分 布 式 系统 ， 同 时 运行 于 多 台 服 务 器 上 。 这 样 分 布 式 系统 在 运行 过 程 中 ， 往 往 会 遇 到 随机 发 生 的 网 络 问题 ， 使 得 其 中 一 台 或 多 台 服 务 器 无 法 访问 。 耐 分 割 性 的 意义 就 在 于 ， 当 
数据 被 分 割 到 多 台 服 务 器 上 的 时 候 ， 任 意 多 台 服 务 器 因为 网 络 或 其 他 原因 不 能 再 读 取 的 时 候 ， 整 个 系统 仍然 会 运行 。 



































网 络 问题 是 现代 分 布 式 系统 中 不 可 避免 的 课题 。 因 此 ， 大 多 数 分 布 式 数据 库 在 设计 的 时 候 都 会 保证 其 耐 分 割 性 。 当 数据 库 具 有 而 分割 性 的 时 候 ， 我 们 只 能 在 下 面 介绍 的 一 致 性 和 可 用 性 之 间 进 行 取舍 。 




















8.2.2 一 致 性 





一 致 性 是 指数 据 库 能 够 真实 还 原 已 经 进行 的 所 有 操作 。 例 如 在 T 时 刻 我 们 向 数据 库 中 写 入 当前 股票 的 报价 ， 然 后 又 在 T+s 时 刻 从 数据 库 中 读 取 最 新 的 股票 报价 ， 此 时 ， 需 要 总 是 能 读 出 最 新 写 入 的 数值 ， 
不 管 : 有 多 小 。 

















传统 的 关系 型 数据 库 的 应 用 场景 往往 是 银行 金融 等 场景 ， 对 数据 库 一 致 性 的 要 求 最 为 严格 。 因 此 传统 关系 型 数据 库 往往 都 在 一 致 性 上 面 下 了 不 少 功 夫 ， 就 算 遇 到 服务 器 突然 断 电 等 情况 ， 也 仍然 要 能 
保证 所 有 已 经 发 生 的 交易 的 一 致 性 。 




















8.2.3 可 用 性 



























































可 用 性 是 指数 据 库 可 以 稳定 地 运行 ， 不 管 我 们 什么 时 候 对 其 进行 读 写 操作 ， 该 数据 库 总 是 可 以 及 时 返回 信息 。 在 2000 年 以 后 的 社交 、 网 游 等 互联 网 等 应 用 场景 中 ， 数 据 库 高 可 用 性 是 企业 生存 的 重要 保 
证 。 一 般 在 设计 架构 的 时 候 都 会 试图 减少 因为 数据 库 延 迟 而 出 现 的 卡 顿 等 现象 。 






































8.2.4 ” CAP 定理 





说 完了 我 们 感 兴趣 的 三 个 性 能 ,现在 轮 到 CAP 定 理 出 场 了 ，CAP 定 理 定义 如 下 : 


任何 分 布 式 系统 ， 只 能 在 耐 分 割 性 、 


CAP 定 理 在 1998 年 由 Eric Brewer 作 为 一 个 推断 提出 ， 直 到 2002 年 才 从 理论 











笔者 常常 也 会 惊叹 Eric Brewer 等 人 能 在 分 布 式 系统 大 规模 应 用 之 前 就 想 出 


一 致 性 和 可 用 性 中 三 选 二 ， 不 可 能 同 由 


全 部 满足 。 


上 得 到 证 明 。CAP 定 理 有 的 时 候 也 叫 称 为 Brewer 定 理 。 

















例如 在 传统 关系 型 数据 库 中 ， 为 了 满足 高 一 致 性 的 需求 ， 对 于 数据 库 的 可 














性 数据 库 中 ， 读 取 操 作 返 回 的 不 一 定 是 当前 数据 库 最 新 的 数值 。 





性 就 做 出 了 牺牲; 另外 一 方 





面 ， 为 了 满足 高 可 


























下 。 


细心 的 读者 一 定 会 问 : 那么 对 于 春节 期 间 ， 好 友之 间 大 规模 发 红包 这 样 的 对 可 




















性 和 一 致 性 要 求 都 非常 高 的 应 























性 的 要 求 ， 数 





如 此 高 度 抽象 的 定理 。 不 过 ， 在 现今 的 实际 应 用 中 ， 这 样 的 考虑 是 非常 常见 的 。 





居 库 的 一 致 性 往往 就 舍弃 到 一 边 了 。 又 比如 ， 在 Redis 等 高 可 上 

















场景 ， 又 是 怎么 实现 的 呢 ? 根据 笔者 多 方面 阅读 资料 和 实验 ， 揣 摩 出 可 能 的 解决 方案 如 


“ 首先 ， 好 友 红 包 系 统 牺牲 了 一 致 性 来 换取 可 用 性 。 例 如 我 们 可 能 在 大 年 三 十 晚上 11: 28 分 抢 到 了 一 个 红包 ， 但 是 这 个 红包 的 金额 要 等 到 11: 31 分 才 真 正 显示 在 零钱 里 面 ， 并 且 可 以 再 次 发 送出 去 。 


“ 虽然 物 牲 了 一 致 性 ， 但 是 微 信 红包 系统 的 一 致 性 牺牲 得 非常 精妙 。 如 果 是 发 红包 ， 其 金额 在 发 出 的 一 瞬间 就 已 经 从 余额 中 扣除 ， 只 是 到 账 时 间 稍 作 了 等 待 。 这 样 就 保证 了 每 个 用 户 都 不 可 能 超 发 ， 另 


外 一 方面 也 从 长 期 保证 了 系统 的 一 致 性 。 


“ 我 们 猜测 微 信 红 包 系统 中 运用 到 了 高 速 前 端 键 值 数 据 库 ， 用 它 作为 当前 每 人 余额 的 缓冲 ， 发 红包 都 从 这 里 面 直接 扣 钱 。 同 时 ， 可 能 在 客户 端 上 也 对 红包 数额 进行 了 
入 红包 ， 每 条 记录 都 进入 分 布 式 队列 ， 通 过 后 端 关 系 型 数据 库 进 行 整理 ， 最 后 将 可 用 余额 同步 给 前 端 高 速 键 值 数 据 库 。 


区 


























当然 ， 说 到 这 里 不 能 不 提 一 下 高 频 交 易 。 对 于 金融 市 场 等 对 可 








性 和 一 致 性 要 求 很 高 的 应 











场景 ， 往 往 会 为 了 这 些 应 




















有 的 不 同 的 形态 。 关 于 这 点 已 经 超出 了 本 书 的 讨论 范围 。 











幸运 的 是 ， 对 于 实时 机 器 学 习 应 
中 ， 往 往 会 进行 下 面 的 设计 。 














， 我 们 往往 假设 整个 世界 的 变化 是 缓慢 的 ， 所 以 我 们 训练 的 模型 就 算 没 有 上 一 秒 的 数 


“ 对 于 直接 做 出 机 器 学 习 预 测 的 前 端 模型 ， 牺 牲 一 致 性 以 换取 可 用 性 ， 这 样 可 以 保证 实时 机 器 学 习 的 高 可 用 性 。 


专门 设计 数据 库 架 构 ， 这 些 架 构 会 





地 调整 ， 以 防止 超 发 。 对 于 收 到 








为 前 端 应 

















和 后 端 快速 模型 训练 的 不 同 而 具 





“ 与 此 同时 ， 通 过 分 布 式 队列 对 数据 进行 缓冲 ， 在 后 端 数据 存储 和 模型 训练 的 时 候 保证 一 致 性 和 可 用 性 ， 并 且 通 过 复 盘 等 操作 进行 监控 排 错 。 


8.3 ”SQL 和 NoSQL 对 比 








SQL 数 据 库 和 NoSQL 数 据 库 怎么 选择 ， 大 概 是 |T 界 的 第 二 大 全 
择 ,， 下面 从 以 下 几 个 方面 进行 讲解 ， 以 供 读者 考虑 。 




















8.3.1 数据 存储 、 读 取 方 式 





议 问题 (第 一 大 全 





议 问 题 是 Emacs 和 Vim 训 优 训 劣 ) 了 。 本 书 综合 了 多 方 








H 














局 作为 训练 集 ， 也 仍然 能 有 效 地 应 














在 下 一 秒 中 。 也 因此 在 实时 机 器 学 习 应 

















的 信息 ， 力 求 从 客观 的 角度 来 陈述 相关 信息 。 为 了 方便 读者 选 


前 面 已 经 提 到 过 ， 关 系 型 数据 库 需 要 内 含 的 数据 具有 清晰 定义 的 架构 (schema) ， 同 一 数据 表 中 的 所 有 字段 都 必须 是 相同 的 类 别 。 非 关系 型 数据 库 在 定义 数据 库 格式 的 时 候 就 没有 这 么 严格 的 要 求 。 








对 于 金融 、 物 流 等 数据 ， 其 中 所 记录 的 信息 其 格式 可 能 都 是 高 度 一 致 的 ， 所 以 这 个 时 候 运 
每 个 客户 端 装载 的 软件 也 有 可 能 不 一 样 。 这 就 要 求 数 拉 














别 ， 有 的 














户 可 能 有 多 个 客户 端 ， 























关系 型 数 

















另外 ， 如 果 业 务 对 数据 库 具 有 高 一 致 性 的 要 求 ， 那 么 关系 型 数据 库 就 是 不 二 选择 。 


8.3.2 ”数据 库 的 扩展 方式 











随 着 业务 的 增长 ， 数 据 量 越 来 越 大 ， 关 系 型 数据 库 和 非 关系 型 数据 库 往 往 


b 有 不 同 的 增长 途径 。 











关系 型 数据 库 的 增长 途径 大 多 属于 纵向 增长 (scale vertically) 。 当 存储 | 


的 数 














非 关 系 型 数据 库 的 增长 途径 大 多 属于 横向 增长 (scale horizontally) 。 当 




















的 服务 器 ， 这 也 是 谷歌 等 大 型 互联 网 公司 对 非 关系 型 数据 库 青睐 有 加 的 重要 原因 。 


8.3.3 ”性 能 比较 








肯定 很 多 读者 会 问 : 能 




















居 库 ， 就 已 经 能 够 满足 需求 了 。 对 于 网 页 、 社 交 数 


























居 库 的 格式 更 加 灵活 多 变 ， 非 关系 型 数据 库 就 更 适合 于 这 样 的 应 




















居 ， 其 中 的 信息 根据 各 个 
场景 。 




















居 量 增 大 时 ， 关 系 型 数 


居 库 往往 会 通过 配 





更 优秀 的 芯 














存储 的 数据 量 增 大 时 ， 非 关系 型 数据 库 常常 通过 在 集群 中 增加 服务 器 的 数量 来 解决 。 这 使 得 非 关 系 型 数据 库 可 以 一 直 采 上 























的 不 同 可 能 都 有 差 


+、 更 大 的 内 存 和 硬盘 来 解决 。 






































能 比较 一 下 关系 型 数据 库 和 非 关系 型 数据 库 在 读 写 方面 的 性 能 ”当然 ， 在 入 门人 群 中 ， 对 数据 库 进行 性 能 测试 、 跑 分 的 文章 一 直 是 非常 受 欢迎 的 。 但 是 数据 库 的 性 能 其 实 是 高 














度 可 变 的 ， 跟 具体 评测 环境 的 配置 、 硬 件 、 网 络 结构 、 操 作 系 统 等 都 有 关系 。 所 以 跑 分 得 到 的 结果 对 其 他 同业 人 员 往 往 具 有 很 小 的 指导 意义 。 同 时 ， 不 管 是 关系 型 数据 库 还 是 非 关系 型 数据 库 ， 都 可 以 通过 


调教 提高 读 写 性 能 。 


例如 关系 型 数据 库 通过 调教 索引 的 方法 就 可 以 大 大 提升 数 拉 








居 库 的 性 能 ， 而 不 需要 任何 额外 投资 。 














通过 阅读 大 量 文献 、 咨 询 专家 并 且 亲 身 实验 ， 对 于 关系 型 和 非 关 系 型 数据 库 的 选择 这 个 问题 ， 我 们 总 结 出 来 的 经 验 就 是 ， 对 于 核心 存储 ， 关 系 型 数据 库 已 经 可 以 满足 90% 以 上 的 需求 场景 ， 只 有 少量 特 








殊 情 况 需要 非 关 系 型 数据 库 。 与 此 同时 ， 对 于 队列 、 缓 存 、 分 析 建 模 等 问题 ， 可 以 配置 非 关 系 型 数据 库 进 行 畏 


8.4 数据 库 的 发 展 趋势 














数据 库 一直 是 IT 界 发 展 的 核心 课题 ， 我 们 相信 数据 库 技术 还 会 继续 快速 发 











8.4.1 不 同 数据 库 之 间 自 动 化 同步 更 为 方便 





民 ， 并 带 来 更 多 的 变革 。 在 2016 重 








助 。 














本 书写 作 之 时 ， 我 们 发 现 了 下 面 这 些 趋势 ， 





可 


台 b- 人 是 
用 到 尿 / 


响 未 来 数据 库 和 机 器 学 习 的 发 展 。 














一 个 数据 库 软 件 再 厉害 ， 也 会 有 自己 的 缺陷 ， 所 以 应 该 让 不 同 的 数据 库 之 间 协 同 作 业 ， 取 长 补 短 ， 这 样 的 看 法 几乎 已 经 成 为 了 业界 的 共识 。 现 今 主 流 数据 库 都 已 经 具有 了 与 其 他 数据 库 自 动 化 同步 的 能 














力 ， 只 需 少 许配 置 ， 即 可 互通 有 无 。 


例如 ， 我 们 可 能 在 MySQL 数 据 库 中 存储 了 数据 ， 现 在 需要 对 这 些 数据 进行 一 些 搜索 和 可 视 化 操作 。Elasticsearch 是 一 款 非 常 优秀 的 分 布 式 实时 搜索 系统 ， 很 多 时 候 它 同 时 也 被 用 作 实 时 数据 可 视 化 工 



























































Kibana 的 后 台 。Elasticsearch 可 以 通过 Logstash 这 一 工具 从 MySQL 等 关系 型 数据 库 中 同步 信息 ， 这 样 的 操作 只 需要 配置 一 个 小 型 的 配置 文件 即 可 完成 。 与 此 同时 ， 我 们 可 能 经 常 需要 将 MySQl 数 据 库 中 的 

















数据 转 存 到 Redis 数 据 库 中 ， 以 方便 前 端 快速 读 取 ，LogStash 也 可 以 轻而易举 地 胜任 这 样 的 工作 。 


8.4.2 云 数 据 库 的 兴起 























云 计 算 提供 的 数据 库 具 有 运 维 投入 低 、 稳 定 、 与 其 他 云 服务 整合 方便 等 特点 。 我 们 认为 ， 以 后 很 有 可 能 会 有 更 多 的 云 计 算 提供 商 也 在 这 方面 发 力 ， 其 带 来 的 结果 势必 会 促进 机 器 学 习 实战 的 发 展 ， 所 以 





这 里 介绍 一 下 。 
































亚马逊 云 计算 (AWS) 作为 云 计算 的 领头 羊 ， 具 有 超凡 的 开发 能 力 。 亚 马 逊 云 计算 的 开发 人 员 通 过 多 年 服务 于 亚马逊 零售 业务 的 经 验 ， 意 识 到 了 数据 库 应 用 中 的 几 个 痛 点 ， 开 发 出 了 DynamoDB 和 


























Aurora 两 款 只 在 AWS 上 才 有 的 数据 库 软件 ， 以 巩固 其 云 计算 生态 的 紧密 程度 。 





















































AWS Aurora 是 一 个 关系 型 数据 库 ， 它 和 MySQL 的 所 有 协议 完全 兼容 。 其 开发 过 程 中 吸取 了 一 般 数据 库 应 用 的 经 验 教 训 ， 具 备 了 自动 备份 、 异 地 容 灾 、 一 键 扩容 、 高 读 写 通 量 、 高 安全 级 别 等 功能 ， 上 




















户 只 需要 轻 点 几 下 鼠标 ， 就 可 以 配置 好 一 个 非常 优秀 的 数据 库 集群 ， 升 级 、 备 份 等 管理 工作 都 可 自动 化 完成 ， 可 以 大 大 降低 数据 库 的 运 维 成 本 。 






































AWS DynamoDB 是 一 个 非 关系 型 数据 库 ，DynamoDB 兼 容 键 值 数据 库 和 文本 数据 库 两 种 异 式 ， 不 仅 可 以 通过 图 形 界面 方便 地 完成 创建 、 配 置 、 扩 容 等 工作 ， 而 且 可 以 大 大 降低 非 关系 型 数据 库 的 运 维 
成 本 。DynamoDB 的 创立 是 基于 Giuseppe DeCandia 等 人 的 一 篇 文献 []， 后 来 硅谷 领先 的 视频 点 播 公司 Netflix 按 照 该 文献 的 内 容 开发 了 开源 版 本 的 DynamiteD。 
























































与 此 同时 ， 其 他 云 计算 提供 商 也 有 类 似 的 产品 面世 。 例 如 微软 的 Azure 云 提供 了 DocumentDB， 作 为 文本 数据 库 ， 其 在 某 些 方面 成 为 DynamoDB 的 竞争 对 手 ; 谷歌 云 服务 也 提供 了 类 似 的 关系 型 和 非 关 


系 型 数据 库 服务 。 


8.4.3 ”底层 和 应 用 层 多 层 化 























在 数据 库 出 现 之 初 ， 数 据 库 的 底层 和 数据 库 前 端 是 紧密 结合 的 ， 但 是 到 了 最 近 数 十 年 ， 开 发 人 员 已 经 意识 到 了 这 样 的 特点 : 数据 库 底层 的 开发 已 经 可 以 满足 现在 的 大 多 数 模式 ， 可 以 根据 不 同 的 分 布 式 








等 要 求 ， 在 上 层 进行 再 度 开 发 。 

















例如 ，Elasticsearch 的 存储 底层 是 Apache Lucene (当然 ， 可 能 有 读者 会 说 Elasticsearch 不 算数 据 库 ) ，Dynamite 的 底层 是 Memcached 和 Redis，DynamoDB 的 底层 据 报 道 运用 了 BerkeleyDB。 它 














们 都 运用 了 已 有 的 经 典 数据 库 作为 底层 存储 平台 ， 在 分 布 式 、 备 份 、 低 延迟 方面 发 力 ， 进 行 了 二 次 开发 。 














我 们 认为 在 未 来 的 数据 库 演进 中 ， 可 能 会 有 越 来 越 多 的 应 用 采取 这 样 的 发 展 模式 ， 站 在 巨人 的 肩膀 上 ， 取 长 补 短 向 前 行 。 














[中 详 见 http://www.allthingsdistributed.com/fi les/amazon-dynamo-sosp2007.pdf。 


[中 详 见 https://github.com/Netfl ix/dynomite。 


8.5 MySQL 简介 























MySQL 是 著名 的 开源 关系 型 数据 库 管理 系统 (RDBMS) 。MySQL 的 高 性 能 、 高 可 靠 性 和 易 用 性 已 使 其 成 为 使 用 最 广泛 的 RDBMS 之 一 ， 被 广泛 应 用 于 各 主要 网 站 ， 例 如 Facebook、Twitter、 
































Youtube 等 。 该 数据 库 管 理 系 统 是 使 用 C/C++ 编 写 的 ， 可 在 各 主要 操作 系统 上 运行 。 同 时 它 也 为 多 种 主要 编程 语言 提供 了 AP1， 极 大 地 方便 了 使 用 。MySQL 是 全 球 使 用 第 二 广泛 的 RDBMS， 位 列 SQLLite 之 




















后 。SQLLite 是 以 嵌入 式 为 目标 的 管理 系统 ， 相 对 MySQL 而 言 ， 功 能 较 弱 ， 因 此 不 在 本 书 的 讨论 范围 之 内 。 




















利用 Docker 安 装 MySQL 














类 似 RabbitMQ 的 安装 方法 ， 使 用 以 下 命令 即 可 开启 MySQL 的 容器 虚拟 机 : 





docker run -p 3306:3306 -e MYSQL ROOT PASSWORD=test -d mysql1:8 


相关 的 参数 说 明 如 下 。 
-P3306: 3306: 将 主机 3306 (前 者 ) 号 端口 的 所 有 流量 都 转发 到 虚拟 机 的 3306 (后 者 ) 号 端口 。 格 式 为 -p< 主机 端口 >: < 虚拟 机 端口 >。 
“ -e MYSQL _ROOT_PASSWORD=test: 设置 虚拟 机 的 环境 变量 ， 这 里 设 定 了 MySQL 的 密码 。 


“-d: 在 背景 进程 中 运行 mysql: 8: 官方 发 布 的 MySQL 8.0 容 器 。 


8.6 ”Cassandra 简 介 
































Cassandra 是 著名 的 开源 分 布 式 数 据 库 管理 系统 ， 不 同 于 MySQL，Cassandra 是 典型 的 非 关系 型 数据 库 ， 即 NoSQL 数 据 库 。Cassandra 起 初 由 Facebook 开 发 且 开 源 ， 之 后 被 eBay、Apple、 
Instagram、Spotify 等 公司 广泛 使 用 。 相 比 HBase，Cassandra 集 成 性 高 且 更 易 安装 部 署 ; 相 比 MangoDB，Cassandra 的 性 能 与 易 用 性 更 佳 。 因 此 本 书 选择 使 用 Cassandra 作 为 NoSQL 的 代表 性 数据 库 。 




































































8.6.1 Cassandra 交 互 方式 简介 
































Cassandra 的 优点 之 一 是 使 用 Cassandra Query Language (CQL) 与 数据 库 进 行 交互 。CQL 语 法 极其 类 似 于 SQL (不 严格 地 说 ，CQL 基 本 上 算是 SQL 的 一 个 子 集 ) ， 因 此 上 手 也 很 容易 ， 并 且 如 果 有 




















从 关系 型 数据 库 到 Cassandra 的 移植 工作 ，CQL 也 会 大 大 减少 你 的 工作 量 。 但 是 CQL 也 有 
面 。 














局 限 性 ， 一 个 很 遗憾 的 缺失 就 是 对 数据 表 的 连接 功能 (JOIN) ， 因 此 当 你 在 项 目 中 做 选择 的 时 候 ， 必 须要 考虑 全 





























不 过 其 实 还 有 更 好 的 交互 方式 。Cassandra 的 优势 在 于 良好 的 分 布 式 存储 机 制 和 高 性 能 与 高 并 发 性 ， 其 实 它 作为 数据 存储 引擎 是 完美 的 。 另 外 一 方面 ，Hadoop 生 态 圈 可 以 完美 地 解决 交互 与 数据 计算 




















的 问题 ， 所 以 如 果 结 合 两 者 的 长 处 可 以 解决 大 部 分 问题 。 基 于 Hadoop 之 上 ， 我 们 可 以 选择 HiveQl 或 sparkSQL， 两 者 都 是 极 类 似 于 SQL 的 数据 库 语 言 。 


Hadoop 作 为 计算 引擎 ， 完 美 结合 两 者 的 优势 。 特 别 是 新 兴 的 SparkSQL， 其 已 经 成 为 未 来 的 趋势 。 





























它们 可 以 利用 Cassandra 作 为 存储 引擎 ， 利 上 











8.6.2 利用 Docker 安 装 Cassandra 








使 








以 下 命令 安装 并 启动 Cassandra : 


docker run -d cassandra:latest 














安装 之 后 ， 使 用 以 下 命令 找到 该 运行 容器 的 1D : 


昌 然 SparkSQL 也 许 是 未 来 最 佳 的 选择 ， 但 是 CQL 对 于 本 书 要 解决 的 问题 已 经 足够 了 ， 





因此 我 们 不 想 为 了 无 关 的 功能 增加 我 们 架构 的 复杂 度 。 





docker ps -1 -f ancestor=cassandra:latest 














找到 Container ID 并 使 F 








以 下 命令 进入 Cassandra 的 命令 行 模式 cqlsh: 


docker exec -让 d7468c9c07cb cqlsh 


至 此 ,我 们 已 经 身 在 一 个 和 MySQL 命 令 模式 极为 相似 的 环境 之 中 了 。 


8.6.3 ”使 用 Cassandra 存 储 数据 











使 





Cassandra 存 储 数据 主要 有 以 下 优势 。 














:伸缩 自如 : 无 论 你 有 100MB 还 是 100TB 的 数据 ， 无 论 你 是 需要 一 台 机 器 还 是 一 百 台 机 器 存储 你 的 数据 ，Cassandra 都 可 以 应 对 自如 ， 这 得 益 于 分 布 式 设计 。 


“ 结构 自由 : Cassandra 不 需要 像 关 系 型 数据 库 那 样 严格 定义 数据 表 的 结构 ， 因 此 增加 或 改变 数据 列 变 得 更 加 简单 。 用 更 为 自由 的 JSON 取 代 大 量 数 据 列 也 是 可 行 的 。 


“ 更 高 的 并 发 性 : 仍然 得 益 于 分 布 式 设计 ，Cassandra 对 于 并 发 大 规模 写 操作 做 了 深入 的 优化 ， 而 这 往往 是 关系 型 数据 库 特别 是 MySQL 的 瓶颈 。Cassandra 号 称 读 写 性 能 与 节点 数量 可 以 达到 线性 关系 ， 这 


也 是 MySQL 做 不 到 的 。 
“ 数据 安全 性 更 佳 : Cassandra 可 以 设 定 数据 备份 。 


显然 Canssandra 对 于 我 们 的 股票 数据 也 是 一 个 比较 理想 的 存储 方案 。 
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没有 实时 监控 功能 的 机 器 学 习 系统 就 像 是 在 雨天 没有 雷达 飞行 的 飞机 ， 

















户 将 会 无 法 得 知 具体 模型 的 效果 ， 














环节 ， 但 关于 这 点 ， 众 多 专业 图 书 中 鲜 有 提 及 。 学 习 应 














最 前 沿 的 机 器 学 习 方法 固然 重 























如 果 大 家 有 条 件 在 硅谷 的 
员工 时 时 刻 刻 都 能 关注 到 


“大 数据 ”公司 进行 一 个 星期 的 系统 性 游览 ， 




















党 

















实时 数据 分 析 是 如 此 的 重 











， 可 是 在 若 


前， 如 果 要 获得 这 样 的 功能 ， 代 价 往往 





， 但 是 如 果 脱 离 了 对 实 











因此 也 难以 让 实时 机 器 学 习 系统 完全 发 挥 作 











事实 上 ， 实 时 监控 往往 也 是 众多 公司 的 薄弱 











示 情 况 和 数据 的 了 解 ， 那 么 任何 机 器 学 习 模 型 都 将 是 空谈 。 











可 以 发 现 谷歌 、LinkedIn、Facebook 等 公司 都 将 数据 进行 了 实时 可 视 化 ， 且 通过 大 
户 的 最 新 动向 。 两 位 笔者 供职 过 的 部 门 都 会 周期 性 地 召开 部 门 会 议 ， 专 门 对 可 视 化 的 总 结 数据 进行 解读 分 析 ， 通 过 对 数据 的 发 气 来 决定 后 续 工作 的 重点 。 














作 ， 
兽 差不多 了 。 幸 运 的 是 ， 这 个 问题 到 2015 年 得 到 了 




















而 前 端 人 员 也 不 清楚 后 端 产生 的 流程 。 这 就 导致 早期 涉足 大 数据 和 机 器 学 习 的 公司 ， 


在 人 员 配置 上 需 








进行 大 量 投入 ， 才 能 














软件 各 自 并 没有 惊 起 太 大 的 波澜 ， 可 是 随 着 时 间 的 推移 ， 








9.1.1 Elasticsearch 的 平凡 起 家 





户 发 现 将 这 三 个 软件 一 起 使 





























幕 放 在 了 公司 进门 最 显眼 的 地 方 ， 这 样 一 








E 常 高 昂 。 原 因 和 开发 人 员 的 专攻 方向 有 关 : 后 端 机 器 学 习 和 大 数据 开发 人 员 往往 不 熟悉 和 理解 前 端 网 页 的 呈现 工 

取得 效果 。 如 果 要 上 马 实时 监控 和 机 器 学 习 ， 投 入 成 本 基本 上 就 和 寻找 独 角 
廉价 、 彻 底 的 解决 。 解 决 这 个 问题 的 主人 公 就 是 ELK，ELK 其 实 是 三 个 紧密 相关 的 服务 之 总 和 : Elasticsearch、LogStash、Kibana。 在 创始 之 初 ， 这 三 个 
的 时 候 ， 可 以 获得 非常 惊人 的 效果 。 下 面 先 分 别 介绍 一 下 它们 的 来 历 。 


Elasticsearch 是 基于 Apache Lucene 的 一 款 实时 搜索 引擎。2004 年 ， 笔 者 才刚 刚 上 本 科 ，Elasticsearch 的 作者 Shay Banon 在 编撰 Elasticsearch 前 身 的 时 候 还 是 一 个 待业 在 家 的 宅男 ， 他 的 太太 正在 努 








力 成 为 一 名 厨师 ， 因 此 需要 一 款 软件 可 以 对 菜谱 进行 搜索 。Shay 自 























立 ， 专 注 于 Elasticsearch 周 边 业务 的 开发 和 企业 级 服务 ，Shay 也 荣 升 CTO。 但 是 
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几 个 














上 已 经 有 了 另外 一 款 基 于 Lucene 的 搜索 引擎 Solr， 并 且 获 得 了 Apache 基 金 会 的 官方 支持 。 为 什么 Elasticsearch 能 

















:易于 配置 : Elasticsearch 的 配置 安装 异常 简单 ， 就 算是 要 进行 集群 配置 ， 也 只 需要 更 改 若干 非常 直观 的 参数 即 可 。 


“ 易于 上 手 : Elasticsearch 支 持 RESTful API， 可 以 在 不 安装 任何 客户 端 ， 也 不 需要 任何 编程 的 情况 下 时 入、 导出 数据 ， 并 且 进行 搜索 。 


“ 高 可 扩展 性 : Elasticsearch 提 供 了 功能 非常 强大 的 开发 工具 和 客户 端 ， 让 用 户 可 以 按照 需要 编写 非常 复杂 的 搜索 命令 ， 


量 需求 。 
' 实时 : Elasticsearch 是 一 款 实时 搜索 引擎 。 


可 见 ，Elasticsearch 是 一 款 非常 强大 的 软件 ， 它 可 以 很 容易 地 和 RabbitMQ、 














在 实时 机 器 学 习 这 样 的 应 
此 将 会 着 重 介绍 它 进行 实时 数据 整合 处 理 的 功能 。 











Elasticsearch 的 ， 











9.1.2 ”LogStash 插 微 的 起 源 


场景 中 ，Elasticsearch 起 到 了 实时 数据 整合 仓库 和 实时 可 视 化 后 端的 作 


























MySQL 等 工 

















， 石 


当 文档 还 在 导入 的 时 候 ， 就 已 经 可 以 对 其 内 容 进 行 搜索 了 。 它 也 支持 后 期 实时 的 修改 、 增 删 等 操作 。 


进行 整合 ， 进 而 产生 更 为 强大 的 功能 。 


告 奋勇 担 起 了 制作 这 个 搜索 引 警 的 重任 ， 并 开发 了 Elasticsearch ， 没 想到 Elasticsearch 竟 然 在 开源 社区 大 获 成 功 。2012 年 Elastic 公 司 成 
居 说 Shay 自 从 开发 Elasticsearch 之 后 一 直 忙 于 工作 ， 而 他 的 太太 仍然 在 等 他 做 好 菜单 搜索 引擎 。 











客 为 主 ， 一 举 成 为 开源 搜索 界 的 主力 呢 ? 笔者 认为 有 以 下 这 么 


在 不 需要 对 EElasticsearch 进 行 二 次 开发 的 情况 下 ， 就 已 经 可 以 满足 实际 应 用 中 的 大 





系统 性 地 介绍 Elasticsearch 的 搜索 功能 则 又 需 


一 整 本 书 的 篇 相 ， 本 书 不 是 专门 讲解 











在 系统 设计 中 ， 往 往 需要 将 一 个 服务 产生 的 数据 稍 做 转换 ， 再 导入 到 另外 一 个 数据 中 。 例 如 在 数据 中 心里 面 ， 服 务 器 可 能 产生 了 大 量 文本 格式 的 日 志文 件 ， 此 时 需要 通过 一 定 处 理 ， 将 文本 文件 的 每 一 
条 记录 转换 为 具有 多 个 字段 的 数据 ， 存 储 到 MySQLl 数 据 库 和 Elasticsearch 中 。 为 了 完成 这 样 的 工作 ，LogStash 应 运 而 生 了 。 





























当然 ， 与 Elasticsearch 一 样 ，LogStash 出 现 的 时 候 市 面 上 已 经 存在 不 少 竞争 对 手 ， 例 如 Apache Flume。LogStash 具 有 非常 优秀 的 接口 ， 可 以 与 MySQL、RabbitMQ、Elasticsearch、Storm 等 数 十 款 
软件 进行 紧密 衔接 ， 并 且 只 需要 进行 非常 少量 的 脚本 配置 即 可 实现 。 凭 借 这 样 的 优势 ，LogStash 脱 颖 而 出 ， 成 为 了 ELK 集 群 的 中 坚 力 量 。 



























































在 实时 机 器 学 习 的 应 用 场景 中 ，LogStash 连 接 了 Elasticsearch 和 前 端 数据 服务 ， 起 到 了 中 间 件 的 作用 ; 与 此 同时 ，Logstash 也 可 以 对 数据 进行 简单 的 加 工 和 标准 化 ， 起 到 了 加 工 工厂 的 作用 。 











9.1.3 ”Kibana 惊 艳 登 场 























Kibana 是 一 款 Elasticsearch 的 可 视 化 插件 。Kibana 的 开发 始 于 2013 年 ， 这 个 时 候 Elastic 公 司 已 经 成 立 ， 他 们 已 经 意识 到 了 数据 可 视 化 的 重大 商业 前 景 。 由 于 Kibana 具 有 强大 的 功能 ， 因 此 它 现 在 已 经 
成 为 了 数据 可 视 化 后 端 不 可 或 缺 的 成 分 。 只 需要 少量 配置 ，Kibana 就 可 以 制作 相应 的 图 示 ， 通 过 趋势 图 、 饼 图 、 直 方 图 等 方式 直观 、 实 时 地 呈现 相关 数据 。 

















































































































在 实时 机 器 学 习 的 场景 中 ，Kibana 将 会 作为 可 视 化 后 端 ， 与 用 户 直接 进行 交互 ， 以 及 进行 数据 监控 、 异 常 监督 等 工作 。 























9.1.4 ”ELK 协 同 作战 

















将 Elasticsearch、LogStash、Kibana 整 合 起 来 ， 就 会 得 到 如 图 9-1 所 示 的 架构 : 前 端 服务 将 需要 整理 呈现 的 数据 传 到 LogStash 中 ，LogStash 对 其 进行 简单 处 理 之 后 再 传输 到 
Elasticsearch，Elasticsearch 对 数据 进行 处 理 和 存储 ， 最 后 通过 Kibana 实 时 地 呈现 给 用 户 。Elasticsearch 负 责 数据 的 存储 和 整合 计算 ; Kibana 负 责 前 端 可 视 化 工作 。 






































LogStash Elasticsearch Kibana 





图 9-1 数据 在 EL 区 集群 中 的 流向 
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没有 实时 监控 功能 的 机 器 学 习 系统 就 像 是 在 雨天 没有 雷达 飞行 的 飞机 ， 用 户 将 会 无 法 得 知 具体 模型 的 效果 ， 因 此 也 难以 让 实时 机 器 学 习 系统 完全 发 挥 作 用 。 事 实 上 ， 实 时 监控 往往 也 是 众多 公司 的 薄弱 
环节 ， 但 关于 这 点 ， 众 多 专业 图 书 中 鲜 有 提 及 。 学 习 应 用 最 前 沿 的 机 器 学 习 方法 固然 重要 ， 但 是 如 果 脱 离 了 对 实际 情况 和 数据 的 了 解 ， 那 么 任何 机 器 学 习 模型 都 将 是 空谈 。 










































































如 果 大 家 有 条 件 在 硅谷 的 “大 数据 ”公司 进行 一 个 星期 的 系统 性 游览 ， 可 以 发 现 谷歌 、Linkedln、Facebook 等 公司 都 将 数据 进行 了 实时 可 视 化 ， 且 通过 大 屏幕 放 在 了 公司 进门 最 显眼 的 地 方 ， 这 样 一 
员工 时 时 刻 刻 都 能 关注 到 用 户 的 最 新 动向 。 两 位 笔者 供职 过 的 部 门 都 会 周期 性 地 召开 部 门 会 议 ， 专 门 对 可 视 化 的 总 结 数据 进行 解读 分 析 ， 通 过 对 数据 的 发 掘 来 决定 后 续 工作 的 重点 。 
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实时 数据 分 析 是 如 此 的 重要 ， 可 是 在 若干 年 前 ， 如 果 要 获得 这 样 的 功能 ， 代 价 往往 非常 高 晶 。 原 因 和 开发 人 员 的 专攻 方向 有 关 : 后 端 机 器 学 习 和 大 数据 开发 人 员 往 往 不 熟悉 和 理解 前 端 网 页 的 呈现 工 
作 ， 而 前 端 人 员 也 不 清楚 后 端 产生 的 流程 。 这 就 导致 早期 涉足 大 数据 和 机 器 学 习 的 公司 ， 在 人 员 配置 上 需要 进行 大 量 投入 ， 才 能 取得 效果 。 如 果 要 上 马 实时 监控 和 机 器 学 习 ， 投 入 成 本 基本 上 就 和 寻找 独 角 
兽 差不多 了 。 幸运 的 是 ， 这 个 问题 到 2015 年 得 到 了 廉价 、 彻 底 的 解决 。 解 决 这 个 问题 的 主人 公 就 是 ELK，ELK 其 实 是 三 个 紧密 相关 的 服务 之 总 和 : Elasticsearch、LogStash、Kibana。 在 创始 之 初 ， 这 三 个 
软件 各 自 并 没有 惊 起 太 大 的 波澜 ， 可 是 随 着 时 间 的 推移 ， 用 户 发 现 将 这 三 个 软件 一 起 使 用 的 时 候 ， 可 以 获得 非常 惊人 的 效果 。 下 面 先 分 别 介绍 一 下 它们 的 来 历 。 







































































9.1.1 _ Elasticsearch 的 平凡 起 家 











Elasticsearch 是 基于 Apache Lucene 的 一 款 实时 搜索 引擎 。2004 年 ， 笔 者 才刚 刚 上 本 科 ，Elasticsearch 的 作者 Shay Banon 在 编撰 Elasticsearch 前 身 的 时 候 还 是 一 个 待业 在 家 的 宅男 ， 他 的 太太 正在 努 
力 成 为 一 名 厨师 ， 因 此 需要 一 款 软件 可 以 对 菜谱 进行 搜索 。Shay 自 告 奋 勇 担 起 了 制作 这 个 搜索 引擎 的 重任 ， 并 开发 了 Elasticsearch， 没 想到 Elasticsearch 竟 然 在 开源 社区 大 获 成 功 。2012 年 Elastic 公 司 成 
立 ， 专 注 于 Elasticsearch 周 边 业 务 的 开发 和 企业 级 服务 ，Shay 也 荣 升 CTO。 但 是 据说 Shay 自 从 开发 Elasticsearch 之 后 一 直 忙于 工作 ， 而 他 的 太太 仍然 在 等 他 做 好 菜单 搜索 引擎 。 






























































在 2004 年 ， 市 面 上 已 经 有 了 另外 一 款 基 于 Lucene 的 搜索 引擎 Solr， 并 且 获 得 了 Apache 基 金 会 的 官方 支持 。 为 什么 Elasticsearch 能 够 反 客 为 主 ， 一 举 成 为 开源 搜索 界 的 主力 呢 ? 笔者 认为 有 以 下 这 么 
几 个 因素 。 


























“ 易于 配置 : Elasticsearch 的 配置 安装 异常 简单 ， 就 算是 要 进行 集群 配置 ， 也 只 需要 更 改 若干 非常 直观 的 参数 即 可 。 
“ 易于 上 手 : Elasticsearch 支 持 RESTful API， 可 以 在 不 安装 任何 客户 端 ， 也 不 需要 任何 编程 的 情况 下 导入 、 导 出 数据 ， 并 且 进行 搜索 。 


: 高 可 扩展 性 : Elasticsearch 提 供 了 功能 非常 强大 的 开发 工具 和 客户 端 ， 让 用 户 可 以 按照 需要 编写 非常 复杂 的 搜索 命令 ， 在 不 需要 对 Elasticseatch 进 行 二 次 开发 的 情况 下 ， 就 已 经 可 以 满足 实际 应 用 中 的 大 


: 实时 : Elasticsearch 是 一 款 实 时 搜索 引擎 。 当 文档 还 在 导入 的 时 候 ， 就 已 经 可 以 对 其 内 容 进 行 搜索 了 。 它 也 支持 后 期 实时 的 修改 、 增 删 等 操作 。 














可 见 ，Elasticsearch 是 一 款 非常 强大 的 软件 ， 它 可 以 很 容易 地 和 RabbitMQ、MySQL 等 工具 进行 整合 ， 进 而 产生 更 为 强大 的 功能 。 












































在 实时 机 器 学 习 这 样 的 应 用 场景 中 ，Elasticsearch 起 到 了 实时 数据 整合 仓库 和 实时 可 视 化 后 端的 作用 ， 若 要 系统 性 地 介绍 Elasticsearch 的 搜索 功能 则 又 需要 一 整 本 书 的 篇 幅 ， 本 书 不 是 专门 讲解 
Elasticsearch 的 ， 因 此 将 会 着 重 介绍 它 进行 实时 数据 整合 处 理 的 功能 。 




















9.1.2 ”LogStash 插 微 的 起 源 











在 系统 设计 中 ， 往 往 需 要 将 一 个 服务 产生 的 数据 稍 做 转换 ， 再 导入 到 另外 一 个 数据 中 。 例 如 在 数据 中 心里 面 ， 服 务 器 可 能 产生 了 大 量 文本 格式 的 日 志文 件 ， 此 时 需要 通过 一 定 处 理 ， 将 文本 文件 的 每 一 
条 记录 转换 为 具有 多 个 字段 的 数据 ， 存 储 到 MySQL 数 据 库 和 Elasticsearch 中 。 为 了 完成 这 样 的 工作 ，LogStash 应 运 而 生 了 。 





























当然 ， 与 Elasticsearch 一 样 ，LogStash 出 现 的 时 候 市 面 上 已 经 存在 不 少 竞争 对 手 ， 例 如 Apache Flume。LogStash 具 有 非常 优秀 的 接口 ， 可 以 与 MySQL、RabbitMQ、Elasticsearch、Storm 等 数 十 款 




















软件 进行 紧密 衔接 ， 并 且 只 需要 进行 非常 少量 的 脚本 配置 即 可 实现 。 凭 借 这 样 的 优势 ，LogStash 脱 颖 而 出 ， 成 为 了 ELK 和 集群 的 中 坚 力量 。 



































在 实时 机 器 学 习 的 应 用 场景 中 ，LogStash 连 接 了 Elasticsearch 和 前 端 数据 服务 ， 起 到 了 中 间 件 的 作用 ; 与 此 同时 ，LogStash 也 可 以 对 数据 进行 简单 的 加 工 和 标准 化 ， 起 到 了 加 工 工厂 的 作用 。 

















9.1.3 ”Kibana 惊 艳 登场 


























Kibana 是 一 款 Elasticsearch 的 可 视 化 插件 。Kibana 的 开发 始 于 2013 年 ， 这 个 时 候 Elastic 公 司 已 经 成 立 ， 他 们 已 经 意识 到 了 数据 可 视 化 的 重大 商业 前 景 。 由 于 Kibana 具 有 强大 的 功能 ， 因 此 它 现 在 已 经 
成 为 了 数据 可 视 化 后 端 不 可 或 缺 的 成 分 。 只 需要 少量 配置 ，Kibana 就 可 以 制作 相应 的 图 示 ， 通 过 趋势 图 、 饼 图 、 直 方 图 等 方式 直观 、 实 时 地 呈现 相关 数据 。 














































































































在 实时 机 器 学 习 的 场景 中 ，Kibana 将 会 作为 可 视 化 后 端 ， 与 用 户 直 接 进 行 交互 ， 以 及 进行 数据 监控 、 异 常 监督 等 工作 。 























9.1.4 “ELK 协同 作战 














将 Elasticsearch、LogStash、Kibana 整 合 起 来 ， 就 会 得 到 如 图 9-1 所 示 的 架构 : 前 端 服务 将 需要 整理 呈现 的 数据 传 到 LogStash 中 ，LogStash 对 其 进行 简单 处 理 之 后 再 传输 到 
Elasticsearch，Elasticsearch 对 数据 进行 处 理 和 存储 ， 最 后 通过 Kibana 实 时 地 呈现 给 用 户 。Elasticsearch 负 责 数据 的 存储 和 整合 计算 ; Kibana 负 责 前 端 可 视 化 工作 。 









































上 游 服 务 LogStash Elasticsearch Kibana 





图 9-1 数据 在 ELK 集 群 中 的 流向 


9.2 ”Elasticsearch 基 本 架构 














下 面 就 来 介绍 一 下 Elasticsearch 的 基本 概念 和 构成 成 员 。 在 生产 环境 中 运行 的 Elasticsearch 往 往 是 以 高 可 用 性 集群 的 形式 存在 的 。 与 其 说 Elasticsearch 是 一 个 独立 存在 的 系统 ， 不 如 说 它 是 一 个 有 机 结 
合 起 来 的 生态 。 在 数据 存储 的 底层 ，Elasticsearch 使 用 已 有 的 Apache Lucene 作 为 数据 存储 和 搜索 引擎 ;通过 多 Lucene 索 引 数 据 在 网 络 集群 上 的 备份 元 余 ，Elasticsearch 实 现 了 高 可 用 性 ; 最 后 ， 通 过 方便 
的 插件 接口 ，Elasticsearch 实 现 了 方便 的 服务 器 管理 等 功能 。 



























































将 这 么 多 内 容 有 机 地 整合 起 来 ， 其 设计 方式 也 是 分 布 式 系统 领域 非常 优秀 的 教材 。 本 节 将 会 按照 构成 部 件 对 其 进行 介绍 ，9.3 节 将 会 按照 功能 进行 讲解 。 


9.2.1 文档 


1 文档 构成 











文档 (Document) 是 Elasticsearch 数 据 存储 的 基本 单位 。 每 个 文档 都 是 一 条 独立 存在 的 数据 个 体 ， 遵 从 JSON 格 式 。 每 个 文档 都 可 能 由 多 个 字段 构成 ， 字 段 格式 包括 字符 、 数 字 、 时 间 戳 、 列 表 ， 甚 至 
是 更 复杂 的 树 状 数据 结构 。 例 如 ， 在 一 个 微 信 联 系 人 索引 中 ， 两 个 文档 的 形式 可 能 是 : 














] 
member since" "2016-12-21T11;12:21", 
"quote":" 友 谊 的 小 船 说 翻 就 翻 " 





" 张 三 w 
"广场 舞 大 侠 " 
] 
"nember Since":"2016-12-21T11;12;21", 


"quote":" 友 谊 地 久 天 长 " 
} 


























可 以 看 到 ， 这 里 的 friends 字 段 是 以 列表 形式 出 现 的 ，member_since 字 段 是 以 时 间 戳 的 形式 出 现 的 。 另 外 ， 这 里 的 id 是 每 个 文档 具有 的 独立 标记 。 








2. 倒 排 索引 











传统 关系 型 数据 库 会 在 数据 库 中 加 入 一 列 索引 列 ， 索 引 列 往往 是 以 二 叉 树 等 形式 存储 起 来 的 。 通 过 索引 列 ， 可 以 很 快 地 找到 对 应 的 行 ， 完 成 读 取 工 作 。Elasticsearch 中 也 采用 了 类 似 的 原理 ， 称 之 为 倒 
排 索引 (inverted index) 。 在 一 个 索引 中 ， 我 们 可 将 文档 的 代号 映射 到 文档 的 内 容 中 去 ; 与 此 相对 的 ， 在 一 个 倒 排 索引 中 ， 则 会 将 文档 的 内 容 映射 到 文档 代号 上 去 。 





























例如 ， 对 于 前 面 张 三 和 李 四 的 自我 介绍 一 栏 ， 与 他 们 对 应 的 倒 排 索引 可 能 如 表 9-1 所 示 (为 节约 篇 幅 ， 里 面 只 包含 了 两 个 字 的 词 ) 。 而 当 我 们 搜索 “友谊 小 船 ” 时 ， 这 一 搜索 字段 首先 被 拆 分 为 “ 友 
谊 ”和 “小 船 ”两 个 字符 ， 从 倒 排 索引 中 分 别 找 出 张 三 两 次 、 李 四 一 次 。 最 后 通过 排序 ， 我 们 认为 张 三 的 个 人 标签 更 切 近 于 搜索 的 字段 ， 如 表 9-2 所 示 。 











表 9-1 ” 张 三 、 李 四 的 示例 中 自我 介绍 的 倒 排 索引 


注意 在 默认 情况 下 ，Elasticsearch 会 对 字符 字段 全 部 进行 倒 排 索引 操作 。 这 样 的 操作 在 数据 录入 的 时 候 完成 ， 所 以 在 后 期 使 


9.2.2 ”索引 和 文档 类 型 





表 9-2 ” 当 搜 索 “ 友 谊 小 船 ”的 时 候 ， 倒 排 索引 计算 的 过 程 























中 ，Elasticsearch 可 以 达到 非常 快 的 访问 速度 。 








Elasticsearch 中 每 个 文档 都 存储 在 索引 (Index) 中 ， 一 个 特定 的 索引 中 ， 所 有 相同 格式 的 文档 称 为 文档 类 型 。 索 引 和 文档 类 型 都 是 用 户 定义 的 对 象 : 一 个 索引 中 可 能 包含 多 个 文档 类 型 ， 每 个 文档 类 型 
中 可 能 包含 多 个 文档 。 这 里 的 索引 和 9.2.1 节 中 提 到 的 “ 倒 排 索引 ”不 同 ， 只 是 翻译 了 之 后 看 起 来 好 像 是 一 个 东西 了 ， 倒 排 索引 (inverted index) 是 单个 文档 层面 的 概念 ， 本 节 的 索引 (index) 是 指 
Elasticsearch 集 群 中 所 有 文档 和 文档 类 型 的 总 和 。 





关系 型 数据 库 中 ， 数 


另外 ， 索 引 是 一 个 物理 概念 ， 后 面 可 以 看 到 ， 不 同 索引 的 见 余 、 分 片 方式 也 不 同 ， 这 也 导致 不 同 索引 中 文档 的 存储 位 置 会 有 所 不 同 ;而 文档 类 型 则 是 逻辑 概念 ， 对 于 同一 个 索引 中 的 不 同文 档 类 型 ， 其 


存储 方式 是 一 样 的 。 





























从 逻辑 上 来 说， 索引 、 文 档 类 型 、 文 档 的 关系 可 以 用 图 9-2 来 形容 ， 它 们 完全 对 应 于 关系 型 数据 库 中 数 


Elasticsearch 的 多 个 数 








局 结构 与 关系 型 数 























居 库 完全 对 应 ， 但 是 具体 的 数据 存储 方式 等 却 完全 不 一 样 。 
































局 结构 可 以 从 上 到 下 分 为 数据 库 、 表 单 和 记录 。Elasticsearch 在 设计 之 初 也 受到 了 这 样 的 影响 ， 索 引 、 文 档 类 型 和 文档 的 关系 可 以 与 关系 型 数据 库 完全 对 应 。 








居 库 、 表 单 和 记录 之 间 的 关系 。 值 得 注意 的 是 ， 这 样 的 类 比 只 是 为 了 方便 读者 理解 ， 虽 然 逻 辑 上 








图 9-2 ”逻辑 上 ， 索 引 、 文 档 类 型 和 文档 之 间 的 关系 
9.2.3 ”分 片 和 元 余 
在 分 布 式 系统 中 存储 并 处 理 大 量 数据 的 时 候 ， 往 往 会 遇 到 如 下 三 项 挑战 。 
“ 数据 体 量 大 : 在 实际 应 用 中 ， 往 往 会 遇 到 数据 量 过 大 的 情况 。 有 的 时 候 一 个 索引 里 面包 含 的 数据 量 可 能 会 超过 一 台 服务 器 所 能 承载 的 数据 量 。 
“并行 计算 要 求 : 在 具有 大 量 数据 的 时 候 ， 往 往 还 需要 搜索 引擎 仍 能 快速 地 返回 寻找 到 的 答案 。 这 就 要 求 我 们 对 数据 进行 并 行 化 ， 用 多 台 服 务 器 对 数据 进行 检索 和 加 工 。 


“ 服务 器 随机 丢失 : 在 一 个 网 络 集群 中 ， 往 往 需要 考虑 服务 器 和 网 络 故障 的 问题 。 即 使 一 个 Elasticsearch 集 群 中 若干 台 服务 器 都 出 现 了 无 法 访问 的 情况 ， 也 应 该 力求 整个 搜索 服务 仍然 能 够 顺利 运行 ， 并 
且 数 据 也 能 以 大 概率 继续 被 访问 到 。 








意识 到 了 这 样 的 挑战 之 后 ，Elasticsearch 的 设计 者 们 提出 了 数据 分 片 (Sharding) 的 概念 。 数 据 分 片 即 将 每 个 索引 物理 地 分 割 为 多 个 小 片区 ， 每 个 片区 独立 地 存储 于 不 同 的 服务 器 上 。 这 就 解决 了 前 
提 到 的 数据 体 量 大 的 挑战 。 与 此 同时 ， 由 于 各 个 片区 分 布 在 了 不 同 的 服务 器 上 ， 因 此 运算 的 负担 同时 也 能 分 散 开 来 ， 这 样 也 就 满足 了 前 面 提 到 的 并 行 计算 的 要 求 。 在 默认 情况 下 ，Elasticsearch 会 将 一 个 索 
引 分 为 五 个 片区 ， 而 用 户 可 以 按照 自己 的 需求 增加 或 减少 片区 的 个 数 。 















































为 了 解决 服务 器 因为 网 络 等 原因 随机 丢失 信息 的 问题 ，Elasticsearch 的 设计 者 提出 了 索引 宛 余 的 概念 。 索 引 宛 余 是 指 每 个 数据 分 片 都 在 Elasticsearch 集 群 中 复制 了 多 份 ， 其 中 一 份 称 为 主 分 片 (primary 
shard) ， 其 他 的 备份 称 为 附属 分 片 (secondary shard) 。 在 正常 情况 下 ， 所 有 的 访问 和 搜索 都 由 主 分 片 完 成 ， 但 是 当主 分 片 所 在 的 服务 器 无 法 访问 的 时 候 ， 集 群 就 会 选取 附属 分 片 作 为 主 分 片 ， 以 替代 之 
前 无 法 访问 的 分 片 ， 这 样 就 保证 了 数据 访问 的 连续 性 。 默 认 情 况 下 ，Elasticsearch 为 每 个 分 片 都 进行 了 一 个 备份 ， 备 份 个 数 可 以 按照 实际 需求 进行 改变 。 


























总 结 起 来 ， 物 理 上 ， 一 个 Elasticsearch 的 索引 是 分 布 式 且 有 备份 的 。 以 图 9-3 为 例 ， 在 一 个 假想 的 三 节点 服务 器 集群 上 面部 署 了 Elasticsearch， 其 具有 两 个 索引 ， 其 中 索引 1 配置 为 3 个 分 片 ， 每 个 分 片 
有 一 个 备份 ; 索引 2 配置 为 2 个 分 片 ， 每 个 分 片 有 一 个 备份 。 当 其 中 一 个 服务 器 丢失 的 时 候 ， 其 他 两 个 服务 器 可 以 利用 上 面 的 数据 继续 运行 而 不 会 产生 服务 中 断 的 问题 。 
































服务 器 1 服务 天 2 服务 天 3 
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图 9-3 ”三 个 节点 的 Elasticsearch 集 群 中 两 个 索引 可 能 的 分 片 和 备份 分 布 情况 


9.2.4 ”Elasticsearch 和 和 数据库 进行 比较 


























看 到 这 里 ， 好 奇 的 读者 肯定 要 问 ，Elasticsearch 如 此 强大 ， 已 经 可 以 像 数据 库 一 样 完成 数据 的 存储 、 查 询 等 工作 ， 为 什么 不 直接 用 Elasticsearch 取 代数 据 库 呢 ? 为 了 找到 这 个 问题 的 答案 ， 笔 者 在 学 习 
Elasticsearch 之 初 进行 了 大 量 的 文献 阅读 和 实验 ， 总 结 出 来 一 些 原因 ， 这 里 就 详细 列 出 与 大 家 分 享 。 








1. 列 索引 数据 的 效率 优势 





Elasticsearch 号 称 是 一 个 分 布 式 实时 搜索 引擎 ， 这 里 实时 的 优势 很 大 一 部 分 来 自 于 其 对 每 条 数据 的 相关 字段 都 建立 了 索引 。 


在 数据 库 的 大 量 数据 中 进行 查询 ， 效 率 往往 需要 取决 于 查询 字段 的 存储 方式 。 如 果 查 询 字 段 经 过 了 预先 索引 ， 那 么 查询 的 时 间 复 杂 度 就 近似 于 O (log (n) ) (这 里 的 n 是 文档 的 数量 ) ， 也 就 是 说 可 以 
非常 迅速 地 返回 结果 。 但 是 若 查询 字段 没有 经 过 索引 ， 那 么 查询 复杂 度 与 数据 量 往往 是 线性 相关 的 ， 随 着 数据 量 增加 ， 查 询 的 速度 也 会 越 来 越 慢 。 




















Elasticsearch 对 文档 字段 的 索引 正好 牌 打 正 着 地 满足 了 这 样 的 需求 ， 这 使 得 Elasticsearch 的 查询 速度 可 以 非常 高 。 笔 者 经 过 文献 查阅 得 知 ， 不 少 对 模型 延迟 有 严格 要 求 的 数量 化 交易 基金 公司 都 采用 了 
Elasticsearch 作 为 数据 存储 后 台 ， 以 满足 模型 训练 和 实际 应 用 的 需求 。 






































可 以 认为 ， 在 数据 存储 方式 这 个 问题 上 ，Elasticsearch 已 经 接近 于 NoSQl 数 据 库 中 的 列 数据 库 ， 按 照 列 字段 进行 快速 查询 的 要 求 很 容易 就 可 以 得 到 满足 。 


2 数据 一 致 性 的 挑战 








尽管 如 此 ，Elasticsearch 是 否 能 担当 作为 数据 库 的 大 任 ， 还 需要 苦 酌 其 在 数据 写 入 一 致 性 方面 的 需求 。 默 认 情 况 下 ，Elasticsearch 所 有 的 数据 写 入 都 是 在 每 秒 结束 的 时 候 才 会 执行 。 这 就 导致 
Elasticsearch 中 数据 的 一 致 性 会 大 打折 扣 。 如 果 数 据 的 写 入 和 读 取 时 间 间 隔 较 短 ， 那 么 Elasticsearch 将 会 无 法 保证 数据 的 一 致 性 。 因 此 ， 在 数据 一 致 性 有 强烈 要 求 的 应 用 场景 中 ， 我 们 尚且 无 法 使 
Elasticsearch 蔡 代数 据 库 。 









































9.3 Elasticsearch 快 速 入 门 

















Elasticsearch 发 展 至 今 已 经 具备 了 非常 强大 的 多 语言 客户 端 支持 ， 比 如 Java、Python 等 。 本 节 将 会 介绍 Elasticsearch 中 RESTful API 的 常用 基本 功能 ， 有 需要 的 读者 可 以 在 此 基础 上 轻松 地 将 操作 迁移 
到 Python 等 平台 上 。 


9.3.1 用 Docker 运 行 Elasticsearch 容 器 虚拟 机 


Elasticsearch 的 开发 和 成 长 过 程 对 Docker 技 术 进行 了 非常 完备 的 支持 。 本 书写 作 之 时 ，Elasticsearch 刚 刚 发 布 5.0 版 本 。 运 行 一 个 Elasticsearch 5.0 的 容器 虚拟 机 实例 只 需要 使 用 下 面 的 命令 即 可 : 





docker run -p 9200:9200 elasticsearch:5.0 

















上 面 这 个 命令 将 下 载 并 运行 Docker Hub 中 的 Elasticsearch 5.0 官 方 容 器 虚拟 机 ， 并 且 将 容器 虚拟 机 上 的 9200 端 口 映 射 到 宿主 机 的 9200 端 口上 。 


























有 一 些 比较 老 旧 的 系统 (如 笔者 的 ) 可 能 需要 对 环境 变量 进行 调整 。 如 果 在 启动 过 程 中 遇 到 报错 ， 可 以 执行 下 面 的 命令 ， 大 多 数 情况 下 执行 该 命令 即 可 消除 错误 : 





sudo sysctl -w vwm.max map count=262144 











待 Elasticsearch 容 器 虚拟 机 启动 成 功 之 后 ， 可 以 通过 浏览 器 访问 http://localhost:9200 地 址 ， 如 果 一 切 顺利 ， 可 以 看 到 类 似 下 面 的 欢迎 语句 : 








"name":"LnGoCgA", 
"cluster name":"elasticsearch", 
"cluster_Uuuid" :"uOMCCcV1Toy68HmYwE07SQ"， 
"version™:{ 
"number™":"5.0.0", 
"build hash":"253032b", 
"build date":"2016-10-26T05:11:34.7372", 
"build snapshot":false, 
"lucene version":"6.2.0" 





1 
"tagline":"You Know, for Search" 


} 























Elasticsearch 的 RESTful API 操 作 往 往 需要 通过 RESTful 客 户 端 来 完成 ， 读 者 可 以 按照 自己 的 喜好 进行 使 用 ， 在 Linux 下 面 可 以 使 用 Curl 命 令 行 进行 操作 。 如 果 读者 尚未 接触 过 RESTful 客 户 端 ， 那 么 推荐 
使 用 Chrome 插 件 DHC， 对 于 它 的 安装 ， 只 需要 在 Chrome Store 中 搜索 DHC 即 可 实现 。 安 装 完成 的 DHC 客 户 端 如 图 9-4 所 示 。 






























































下 面 就 以 新 闻 信 息 搜索 为 例 ， 介 绍 Elasticsearch 在 搜索 和 对 偶 搜索 方面 的 基本 操作 。Elasticsearch 的 功能 非常 强大 ， 这 里 只 能 涉及 皮毛 ， 建 议 有 兴趣 的 读者 阅读 官方 文档 []。 








9.3.2 ”创建 存储 文档 、 文 档 类 型 和 索引 
































在 很 多 应 用 研究 中 ， 都 需要 对 新 闻 和 与 情 进行 分 析 。 例 如 在 金融 市 场 应 用 中 ， 需 要 对 市 场 的 情绪 进行 掌握 ; 在 公共 卫生 研究 中 ， 新 闻 慢 情 监控 可 以 跟踪 病情 走向 和 群众 的 知情 情况 。 这 些 文字 研究 的 核心 
通常 都 离 不 开 搜 索 。 通 过 对 历史 新 闻 的 搜索 、 整 理 和 归纳 ， 我 们 往往 可 以 从 时 间 序 列 角度 分 析出 话题 的 产生 、 扩 散 和 遗忘 过 程 。 
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图 9-4 DHC 客 户 端 安装 完成 的 效果 


本 节 将 利用 Elasticsearch 制 作 一 个 非常 简易 的 新 闻 搜 索引 警 。 该 搜索 引擎 存储 于 Elasticsearch 的 news 索 引 中 ， 文 档 格 式 为 新 闻 。 没 错 ， 你 没有 看 错 ，Elasticsearch 在 没有 任何 配置 的 情况 下 对 中 文 都 有 
尚 佳 的 支持 ， 文 档 类 型 、 字 段 名 等 可 以 直接 是 中 文 。 新 闻 文 档 格式 中 包含 四 个 字段 ， 分 别 为 发 布 日 期 、 标 题 、 内 容 和 来 源 。 








在 Elasticsearch 中 存储 文档 的 准备 工作 往往 包含 定义 字段 属性 等 工作 。 这 些 工 作 可 以 用 下 面 的 命令 来 完成 : 








Curl -i -X PUT -H "Content-Type:application/json" -d \ 
1 
{ 
"mappings":{ 
"新 闻 ":{ 
"properties":{ 
"日期 ":{ 
"type": "date" 


type": "text" 
type":"text" 


type": "text" 


} 
”AN 'http://localhost:9200/news/' 




















这 里 为 “新闻” 这 一 数据 类 型 设置 了 四 个 字段 ， 其 中 日 期 字段 为 特殊 的 日 期 类 型 (date) ， 这 有 助 于 后 面 利 用 时 间 对 文档 进行 过 滤 。 





在 上 面 的 命令 执行 完成 后 ， 我 们 可 以 查看 news 索 引 下 面 的 字段 属性 ， 通 过 下 面 的 命令 进行 操作 即 可 : 





curl -i -X GET -H "Content-Type:application/json" \ 'http://localhost:9200/news/ 
新 闻 /_mapping' 








这 个 时 候 可 以 得 到 类 似 前 文 设置 的 结果 。 


现在 就 可 以 开始 录入 文档 啦 。 下 面 的 操作 将 会 录入 一 篇 取 自 于 人 民 日 报 网 站 上 的 文章 : 





curl -i -X PUT -H "Content-Type:application/json" -d \ 
' 
{ 
a 期 ": "2016-12-23T07:23:00", 四 
"标题 ":" 人 民 币 汇率 破 7 近 在 骨 尺 专家 :加 大 正面 引导 预期 "， 








近期 ， 人 民 币 对 美元 汇率 " 紧 贴 "7 关口 、 外 汇 储备 " 直 逼 "3 万 亿美 元 .…"， 
"来 新 华 网 " 
}' 'http://localhost:9200/news/ 新 闻 /1' 
































注意 ， 在 上 面 的 操作 中 ， 用 了 PUT 作为 数据 输入 的 命令 ， 设 置 字段 属性 的 时 候 也 用 了 PUT 作为 命令 类 型 ， 而 读 取 的 时 候 则 用 了 GET 作 为 命令 类 型 。 




















上 面 的 命令 执行 完成 之 后 ， 返 回 的 数据 往往 会 是 如 下 形式 : 





" index"; "news 中 元 
"_typ 所 闻 "， 
rian:nln 





"successful":1, 
"failed":0 


}, 


"created":true 














返回 信息 表示 : 在 名 为 news 的 索引 下 ， 新 闻 这 一 文件 类 型 中 创建 了 一 个 文件 ， 文 件 ID 是 1。 这 里 请 读者 按照 自己 的 喜好 ， 改 变 上 面 输入 文件 的 内 容 ， 创 建新 的 文档 。 将 上 面 的 操作 重复 多 次 之 后 ， 可 以 
























































_count 函 数 来 读 取 当 前 文档 类 型 下 已 经 录入 的 文档 个 数 ， 只 需要 执行 下 面 的 命令 即 可 : 


curl -i -X GET -H "Content-Type:application/json" \ 'http://localhost:9200/news/ 
新 闻 /_count' 





若 看 到 类 似 于 下 面 的 返回 数据 ， 就 表示 当前 news 索 引 新 闻 文 档 类 型 下 ， 一 共有 3 个 文档 ， 该 索引 有 5 个 分 片 ， 都 是 成 功 访问 的 分 片 : 





Weg YS 

" shards":{ 
nteotal™ss, 
"successful":5, 
"failed":0 

} 





9.3.3 ”搜索 文档 


下 面 到 了 激动 人 心 的 搜索 步骤 了 ， 例 如 要 搜索 与 “汇率 ”有 关 的 新 闻 ， 可 执行 下 面 的 命令 : 





Curl -i -X POST -H "Content-Type:application/json" -d \ 
' 
{ 
"query":{ 
"match":{ 
"内 容 ": 3C 率 " 
} 
i 


} 
' 'http://localhost:9200/news/ 新 闻 /_search' 





返回 的 内 容 部 分 如 下 : 





{ 
"took":64, 
"timed out":false, 
» ghargdoe"st 
total":5, 
"successful":5, 
"failed":0 


Wh 








‘ 

"2016-12-23T07:23:00", 

"人 民 币 汇率 破 7 近 在 及 斥 专家 : 加 大 正面 引导 预期 "， 

a A 率 " 紧 贴 "7 关 口 、 外 汇 储备 "直通 "3 万 亿美 元 .…"， 
wm 新 华 网 " 


.376633, 


"2016-12-23T08:17:00", 
"个 税 改革 将 成 税 改 看 点 月 入 万 元 以 下 或 降 税 " 





": "经 济 参考 报 " 


" 《经济 参 考 报 》 记 者 日 前 从 业内 获悉 ， 个 人 所 得 税 的 推进 或 将 成 为 明年 我 国税 收 制度 改革 的 最 大 看 点 ， 修法 先行 、 分 步 实施 将 成 为 个 税 改革 的 现实 选择 。 在 " 增 低 、 扩 中 、 调 高 "的 总 原则 下 ， 扩 中 





上 面 的 返回 数据 可 以 这 么 解读 ， 首 先 ， 整 个 搜索 耗 时 64 微 秒 (took 字 段 ) ， 没 有 超时 (timed_out 字 段 ) 。 总 共有 2 个 文档 被 选中 (hits 字 段 ) ， 最 大 相似 度 为 0.86819494 (max\_score 字 段 ) 。 





细心 的 读者 可 能 还 会 发 现 ， 上 面 第 二 篇 文章 说 的 是 降 税 问题 ， 并 没有 提 到 “汇率 ”这 个 关键 词 ， 为 什么 仍然 以 0.376633 的 相似 度 名 列 第 二 呢 ? 这 里 需要 提 一 下 Elasticsearch 相 似 度 的 计算 方法 。 





总 的 来 说 ，Elasticsearch 搜 索 一 个 文档 需要 经 过 如 下 几 个 步骤 。 


1) 分 析 搜 索 条 目 : Elasticsearch 首 先 会 对 搜索 条 目 进行 分 析 。 分 析 内 容 包 括 ， 对 文字 进行 预 处 理 并 分 块 ， 对 数字 进行 转化 ， 对 地 理 坐 标 进行 转化 等 。 











2) 搜索 : 利用 上 面 分 析出 的 结果 ，Elasticsearch 会 在 Lucene 索 引 中 寻找 出 对 应 的 文档 ， 计 算 相似 度 。 
































3) 生成 结果 : 利用 相似 度 的 计算 结果 ，Elasticsearch 会 对 结果 进行 整合 ， 最 后 生成 所 需 的 数据 并 返回 。 

















当 我 们 搜索 “汇率 ”的 时 候 ， 默 认 情况 下 ，Elasticsearch 会 将 这 一 关键 词 分 块 成 “ 汇 ”和 “ 率 ” 两 个 单字 ， 并 利用 这 两 个 单字 进行 搜索 。 由 于 第 二 篇 文章 中 含有 “税率 ”一 词 ， 











因此 导致 第 二 篇 文章 被 





选取 出 来 ， 虽 然 相似 度 较 低 。 














那么 有 没有 方法 实现 更 理性 的 分 词 呢 ? 当然 有 ， 我 国 自然 语言 处 理 研 究 水 平一 直 处 于 世界 领先 地 位 ， 现 成 的 文本 分 析 包 很 多 ， 信 和 手 拓 来 即 可 使 用 。 这 里 推荐 采用 Smart Chinese Analysis Plugin， 其 可 
以 通过 Elasticsearch 自 带 的 插件 功能 进行 安装 配置 [。 






































有 的 时 候 ， 我 们 可 能 仅仅 对 搜索 结果 的 一 部 分 感 兴趣 ; 有 的 时 候 ， 每 个 文档 都 特别 大 ， 只 需要 返回 结果 的 一 部 分 字段 即 可 ， 以 减少 延迟 ， 降 低 对 网 络 带宽 的 压力 。 这 时 可 以 使 用 _ source 字段 选取 所 需 的 
字段 。 




















例如 对 于 前 面 新 闻 搜索 的 问题 ， 可 能 大 家 只 对 新 闻 来 源 感 兴趣 ， 那 么 可 以 用 下 面 的 操作 简化 结果 : 

















Curl -i -X POST -H "Content-Type:application/json" -d \ 
' 
{ 
"query":{ 
"match":{ 
"内 容 "汇率 " 
} 
] 
"Sourcen : [ 


"来 源 " 


] 
}' "http://localhost:9200/news/ 新 闻 /_search' 








返回 的 数据 如 下 : 





{ 
光世 ODS 
"timed out":false, 
"_shards":{ 
neotal™:s,: 
"successful":5, 
"failed":0 


] 7 

"ictanst 
Htotaltsa 
"max_ score":0.86819494, 
WaS 











可 以 注意 到 ， 由 于 只 读 取 了 一 个 字段 ， 因 此 进行 此 搜索 仅仅 耗费 了 5 微 秒 ， 与 前 面相 比 ， 有 了 大 幅度 的 提升 。 








9.3.4 “对偶 搜索 























对 偶 搜索 (percolate) 是 Elasticsearch 中 一 个 非常 强大 的 功能 ， 据 笔者 所 知 其 也 是 最 容易 被 忽略 的 功能 。 按 照 最初 的 设计 ， 对 偶 搜索 是 搜索 的 对 偶 问题 (dual problem) : 在 传统 的 搜索 方式 中 ， 文 
档 已 经 被 存储 在 了 搜索 引擎 中 ， 需 要 通过 查询 (query) 来 读 取 文 档 ;在 对 偶 搜索 中 ， 则 是 查询 被 存储 在 了 搜索 引擎 中 ， 可 用 文档 来 调 取 查询 。 这 样 的 对 比 可 以 用 图 9-5 来 表示 。 



































对 偶 搜 索 的 定义 看 起 来 非常 平 


搜索 引擎 





同类 型 的 














投放 不 同 的 内 容 。 

















户 到 达 时 ,将 








帅 ， 











其 实 其 











可 以 




















另外 ， 还 可 能 需要 为 实时 服务 器 运行 数据 设立 一 个 警报 系统 。 当 包含 





图 9-5 Elasticsearch 搜 索 和 对 偶 














来 解决 机 器 学 习 应 


当 投 放 的 罗 辑 非常 清晰 的 时 候 ， 可 以 通过 对 偶 搜 索 的 办 法 来 完成 这 一 工作 。 只 需要 将 每 一 投放 所 对 应 的 
户 的 地 理 位 置 、 








中 非常 多 的 一 类 问题 。 例 如 ， 在 移动 应 





搜索 a) 的 对 比 b) 























的 服务 器 端 ， 往 往 需要 对 




















对 偶 查 询 中 ， 在 对 日 志文 档 进行 对 偶 搜索 查询 时 ， 若 对 偶 搜索 结果 返回 不 为 空 ， 则 发 出 相应 的 警报 。 


从 这 里 可 以 看 到 ， 对 偶 搜索 是 一 个 更 适合 于 实时 机 器 学 习 场景 的 执行 模式 : 在 实时 场景 中 ， 我 们 已 经 知道 了 搜索 条 目 ， 文 档 是 实时 到 来 的 ， 这 个 时 候 更 适合 
场景 中 ,我 们 已 经 知道 了 所 有 的 文档 ， 搜 索 条 目 可 以 随时 改动 ， 这 个 时 候 更 适合 

















沿用 上 面 对 新 闻 进 行 搜索 的 示例 ， 下 面 
醒 。 











首先 ， 需 要 向 索引 中 注入 对 偶 搜索 条 目 和 





格式 。 类 似 于 9.3.2 节 对 了 























传统 搜索 对 文档 进行 检索 。 


户 信息 写成 Elasticsearch 查 询 的 
户 画 像 等 信息 转换 为 一 个 文档 ， 然 后 进行 对 偶 搜 索 ， 返 回 的 对 偶 搜 索 条 目 即 为 所 需 投 放 的 信息 。 


户 所 在 的 地 理 位置 、 设 备 种 类 和 




















要 字段 的 服务 器 日 志 出 现 的 时 候 ， 发 出 邮件 通知 用 户 。 事 实 上 ， 这 样 的 功能 














文档 数据 格式 的 定义 ， 定 义 对 偶 搜索 的 文档 类 型 如 下 : 




















画像 进行 分 块 ， 以 针对 不 


性 质 ， 并 作为 对 偶 搜索 条 目 存 储 在 Elasticsearch 中 即 可 。 当 新 


可 以 通过 对 偶 搜索 来 实现 : 只 需要 将 重要 字段 写 入 

















对 偶 搜 索 来 对 文档 进行 检索 ;而 在 线 下 











对 偶 搜索 建立 一 个 简单 的 金融 风险 预警 系统 。 该 系统 将 对 新 闻 中 的 “破产 ”“ 跑 路 ”等 关键 词 进行 搜索 ， 当 含有 该 关键 词 的 新 闻 出 现 的 时 候 ， 对 用 户 进行 提 








Curl -i -X PUT -H "Content-Type:application/json" -d \ 


1 
{ 
"mappings":{ 
"新 闻 ":{ 
"properties":{ 
"日 期 ":{ 
ntypen:ndaten 


}, 
"关键 词 警报 ": { 
"properties":{ 
"query":{ 
"type":"percolator™" 
} 
} 
上 


} 
' 'http://localhost:9200/news-2" 











这 里 创建 了 一 个 新 的 索引 ， 名 为 news-2， 其 中 含有 一 个 名 为 关键 词 警报 的 文档 类 型 ， 它 仅仅 包含 一 个 名 为 query 的 字段 ， 类 型 为 percolator (对 偶 搜索 ) 。 其 实 这 里 对 偶 搜 索 的 条 目 在 Elasticsearch 中 
也 是 以 文档 的 形式 存在 的 ， 只 是 字段 类 型 是 对 偶 搜索 。 





通过 下 面 的 命令 ， 我 们 向 news-2 索 引 下 的 关键 词 警报 文档 类 型 中 输入 两 个 对 偶 搜索 条 目 ， 从 而 分 别针 对 新 闻 标 题 中 的 “破产 ” “ 跑 路 ”两 个 关键 词 进行 警报 





Curl -i -X PUT -H "Content-Type:application/json" -d \ 
' 
{ 
nquery":{ 
"match": { 
"标题 ": "破产 " 


} 
}' http://localhost:9200/news-2/ 关 键 词 警报 /1 





下 面 的 命令 会 对 “ 跑 路 ”关键 词 进行 警报 : 





Curl -i -X PUT -H "Content-Type:application/json" -d \ 
{ 
"query":{ 





} 
} ”http://Localhost:9200/news-2/ 关 键 词 警报 /2， 





可 以 看 到 ， 上 面 的 操作 内 容 和 普通 查询 非常 类 似 ， 只 是 RESTful 操 作 由 POST 变 成 了 PUT， 将 查询 存储 在 了 索引 中 。 一 切 就 绪 之 后 ， 就 可 以 开始 对 文档 进行 判断 了 。 


下 面 首先 输入 一 篇 标题 中 不 含 相关 关键 词 的 文档 。 可 以 看 到 下 面 的 语法 与 普通 查询 极为 类 似 ， 唯 一 的 差别 是 查询 类 型 由 match (字段 配对 ) 变 成 了 percolate (对 偶 搜索 ) : 





Curl -i -X POST -H "Content-Type:application/json" -d \ 
1 
{ 
"aquery":{ 
"percolate":{ 
"field":"query", 
"document type":"doctype", 
"document":{ 
"标题 ": "11 月 外 汇 交 易 增 四 成 个 人 购 汇 额度 不 变 " 
上 
} 


} 
}' "http://localhost:9200/news-2/ 关 键 词 警报 /_search' 





返回 的 内 容 如 下 ， 可 以 看 到 这 一 查询 并 没有 触发 任何 对 偶 搜索 条 目 : 





3 

"timed out":false, 

" shards":{ 

~ total":5, 
"successful":5, 
"failed":0 


] 7 

hotest 
totals:0, 
"max score":null, 
wt et 


] 
} 





下 面 让 我 们 查询 一 条 标题 含有 相关 关键 词 的 新 闻 : 





curl -i -X POST -H "Content-Type:application/json" -d \ 
' 
{ 
"query":{ 
"percolate":{ 
"field":"query", 
"document type":"doctype", 
"document™: { 


"标题 ": "韩国 最 大 海运 公司 破产 面临 全 球 扣 船 危机 " 














} 


} 
}' "http://localhost:9200/news-2/ 关 键 词 警报 /_search' 








可 以 看 到 返回 的 消息 中 包含 了 有 “破产 ”关键 词 的 对 偶 搜索 条 目 : 





"took":39, 

"timed out":false, 

" shards":{ 
Wotal Ts; 
"successful":5, 
"failed":0 

Ey 

"hitest 
tatalnsly 
"max score":0.5398108, 
hits": I 

{ 

"_ index":"news-2", 
type" : "关键 词 警报 "， 
id":"1", 
score":0.5398108, 
source":{ 

"query":{ 
"match" 
"标题 ": 








[由 详 见 https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html。 


[2] https:/ /www.elastic.co/ guide/en/elasticsearch/plugins/current/analysis-smartcn. html 是 相关 的 介绍 和 下 载 地 址 。 


9.4 Kibana 快 速 入 门 





























Kibana 是 一 款 基 于 网 页 的 数据 可 视 化 工具 。 它 能 与 Elasticsearch 紧 密 整合 ， 完 成 对 数据 的 查询 、 整 合 、 可 视 化 和 面板 自动 更 新 等 多 项 功能 。 到 2016 年 年 底 本 书写 作 之 时 ，Kibana 已 经 发 展 到 了 5.1 版 
本 ， 成 为 了 主流 的 实时 数据 监控 利器 ， 可 以 对 常用 表格 数据 、 时 间 序列 及 网 络 结构 进行 高 效 可 视 化 。 

































































Kibana 往 往 需要 和 Elasticsearch、Logstash 集 群 混 合 使 用 ， 所 以 我 们 统称 它们 为 ELK 集 群 。ELK 集 群 的 出 现 解决 了 数据 分 析 中 巨大 的 痛 点 ，ELK 出 现 之 前 ， 数 据 分 析 通常 需要 经 过 下 面 几 个 步骤 。 


























1) 数据 抽取 : 数据 抽取 步骤 主要 是 指 从 数据 库 中 抽取 需要 可 视 化 和 分 析 的 数据 ， 这 一 步 通常 是 通过 SQL 等 语言 来 完成 的 。 








2) 数据 加 工 处 理 : 这 一 步 会 对 数据 抽取 结果 的 格式 等 进行 简单 的 操作 ， 并 且 将 处 理 完 成 的 数据 存储 在 数据 库 中 。 




















3) 通过 网 页 呈现 处 理 好 的 数据 : 对 数据 的 呈现 ， 往 往 需要 通过 网 页 和 前 端 操作 来 实现 ， 这 就 会 涉及 Javascript D3 等 进行 网 页 泻 染 的 操作 。 





在 笔者 初 入 工业 界 的 时 候 ， 这 样 的 流程 是 数据 分 析 和 可 视 化 的 必 经 之 路 。 在 笔者 供职 的 一 些 部 门 里 面 ， 制 作 数 据 可 视 化 面板 曾经 是 新 人 熟悉 业务 的 必 经 之 路 ， 因 为 上 面 的 操作 是 如 此 之 复杂 ， 以 至 于 可 
以 让 新 人 熟悉 整个 系统 的 操作 。 









































当然 ， 这 个 流程 的 头 端 也 很 明显 ， 为 了 完成 上 面 的 三 步 操 作 ， 往 往 需要 利用 三 种 不 同 的 语言 进行 编程 : 为 了 抓 取 数 据 ， 可 能 需要 进行 SQL 编程 ; 为 了 进行 网 页 后 端 处 理 ， 可 能 需要 写 Python、Java， 甚 
至 R 等 语言 ; 为 了 对 数据 进行 可 视 化 ， 可 能 需要 编写 JavaScript 等 语言 。 这 样 杂 烘 的 流程 会 大 大 降低 迭代 的 速度 ， 而 且 容 易 出 错 ， 大 量 浪费 开发 人 员 的 精力 。 
































ELK 出 现 了 之 后 ， 数 据 可 视 化 的 流程 更 改 成 为 下 面 的 步骤 。 
































1) 在 Kibana 操 作 界面 中 进行 交互 性 数据 探索 ， 通 过 可 视 化 界面 存储 需要 存储 的 可 视 化 结果 。 


2) 在 数据 面板 中 加 入 上 一 步 中 存储 的 可 视 化 结果 ， 即 可 在 后 面 收 到 实时 更 新 的 数据 可 视 化 结果 。 




















使 用 ELK 之 后 ， 上 面 的 可 视 化 操作 将 全 部 在 Kibana 网 页 界面 中 通过 交互 式 来 完成 ， 唯 一 需要 编程 的 内 容 是 JSON 格 式 的 查询 语句 。 这 就 使 得 迭代 速度 大 幅 提 升 ， 同 时 也 大 大 降低 了 系统 的 复杂 度 ， 减 轻 了 
运 维 的 负担 。 下 面 就 来 介绍 ELK 集 群 的 配置 和 Kibana 的 基本 可 视 化 操作 。 





























9.4.1 利用 Docker 搭 建 ELK 集 群 








首先 来 介绍 ELK 集 群 的 搭建 方法 。 在 RabbitMQ 这 一 章 的 实战 内 容 中 ， 我 们 已 经 成 功利 用 Docker Compose 将 LogStash 和 Elasticsearch 连 接 起 来 。 本 章 只 需要 再 增加 一 个 Kibana 集 群 ， 并 以 此 进行 操作 
即 可 。 























下 载 本 章 实例 程序 ， 只 需要 执行 下 面 的 操作 : 





git clone 
https://github.com/real-time-machine-learning/5-elasticsearch-logstash-k 








该 实例 集群 分 为 五 个 部 分 ,具体 如 下 。 
“ 数据 源 : 这 里 是 一 个 含有 原 有 股票 数据 的 虚拟 机 镜像 ， 在 此 通过 Python 小 程序 将 数据 输入 到 RabbitMQ 队 列 中 。 
“ RabbitMQ: 这 里 的 消息 队列 负责 联系 各 个 服务 ， 并 对 数据 进行 一 定 的 缓冲 。 这 里 用 RabbitMQ 联 系 LogStash 和 数据 源 。 
" LogStash: ELK 集 群 的 门户 ，LogStash 负 责 从 RabbitrMQ 中 读 取 数据 ， 并 且 转 换 成 需要 的 格式 ， 存 入 Elasticsearch 中 。 
“ Elasticsearch: 数据 的 存储 、 搜 索引 擎 。 


“ Kibana: 用 户 进行 可 视 化 操作 和 监控 的 窗口 。 





这 五 个 部 分 分 别 对 应 于 下 面 的 Docker Compose 配 置 文件 : 


data-dump: 
build: ./data-pump/ 
links: 
— rabbitmq 
rabbitmq: 
image: rabbitmq:3-management 
ports: 
一 15672:15672" 
= "5672:5672" 
logstash: 
build: ./logstash/ 
links: 
- elasticsearch - rabbitmq 
elasticsearch: 
image: elasticsearch:5.0 
orts: 
- "9200:9200" 
kibana: 
image: kibana:5.0 
links: 
- elasticsearch 
ports: 
- "5601:5601" 

















这 里 的 实例 沿用 了 前 面 使 用 的 秒 级 实时 股票 数据 。 其 中 Logstash 的 配置 和 RabbitMQ 章 节 (第 7 章 ) 中 的 配置 类 似 ， 这 里 只 是 对 数据 的 格式 进行 了 改进 ， 为 了 保证 能 够 真实 地 还 原 原 始 数据 ， 我 们 采用 
了 OHLCV 格 式 (Open、High、Low、Close、Volume，OHLCV， 中 文 称 之 为 开盘 、 最 高 、 最 低 、 收 盘 及 成 交 量 ) 。 同 时 为 了 易于 对 股票 按照 代码 进行 加 总 ， 这 里 将 代码 (Symbol 字段 ) 设置 成 为 
keyword (关键 词 ) 字 段 类 型 。 整 体 配置 如 下 : 






























































{ 
"template":"stock price-*", 
"mappings":{ 
"counter":{ 
"properties":{ 
"Open":{ 
"type":"float" 


1 
"High": { 

"type":"float" 
}, 


e":"float" 
"nfloat™ 


WE Lout" 


1 

"timestamp":{ 
"type": "date" 

}, 

"Symbol" :1{ 


"tyYPe" : "keyword" 





以 上 集群 开始 运行 以 后 ， 名 为 data-dump 的 虚拟 机 服务 器 中 的 Python 程序 将 会 向 RabbitMQ 中 传递 报价 信息 ， 传 递 完成 后 它 会 


止 。 





动 关闭 。 而 该 集群 的 其 他 虚拟 机 服务 器 将 会 继续 运行 ， 


























直到 用 户 关 闭 为 











ELK 集 群 开始 运行 之 后 ， 就 可 以 通过 http://localhost:5601 访 问 Kibpana 界 面 了 ， 本 节 后 面 的 所 有 操作 都 会 在 Kibana 中 可 视 化 完成 。 如 图 9-6 所 示 ，Kibana 界 面 主要 分 为 左边 目录 和 右边 操作 





其 中 左边 目录 按照 Kibana 的 主要 功能 分 为 数据 初探 (Discover) 、 
分 。 图 9-6b 开 发 操作 区 显示 的 内 容 可 随 图 9-6a 目 录 的 选择 而 变动 。 
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a) 


9.4.2 ”配置 索引 格式 


开始 使 用 Kibana 进 行 操作 的 时 候 ， 首 先 需要 对 相关 数据 集 所 在 的 Elasticsearch 索 引进 行 配置 。 最 初 通过 http://localhost:5601 登 录 Kibana 的 时 候 ， 可 以 看 到 如 图 


关 索 引 的 名 称 。 


Elasticsearch 对 数据 存储 的 一 个 建议 是 ， 对 于 时 间 序 列 等 格式 的 数据 ， 按 照 日 期 分 别 建立 索引 ， 






































了 方便 操作 ，Kibana 人 允许 我 们 用 星 号 来 代替 任意 字段 ， 这 里 将 


可 视 化 (Visualize) 、 


面板 (Dashboard) 、 


ee 和 ina mo wes 0 day Ne Em eretth taer re 














时 间 序 列 工作 区 











(Timelion) 、 


sxx hr stock_price-* 


9-6 ”Kibana 索 引 配 置 界面 


stock_price-* 来 读 取 与 实时 报价 有 关 的 所 有 信息 。 
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s) 几 大 部 


a 


| 
| 











口 
口 
7 
a 
口 
口 
| 
品 
口 
局 
品 
口 
口 
口 
oO 
a 


9-6a 所 示 的 界面 。 这 里 需要 输入 操作 相 


这 样 就 可 以 方便 地 对 不 常用 的 索引 进行 压缩 和 归档 。 对 此 ， 索 引 名 称 往往 会 包含 日 期 等 变动 的 字段 。 为 


另外 我 们 还 需要 告知 Kibana 数 据 是 按照 哪个 字段 进行 时 间 标签 记录 的 。 点 开 Time-field names 下 拉 菜 单 ， 可 以 看 到 两 个 备 选项 。 其 中 @timestamp 是 由 LogStash 自 动 创建 的 处 理 时 间 戳 ， 而 


timestamp 是 按照 股价 报价 而 来 的 时 间 戳 。 这 里 将 选择 timestamp。 最 后 点 击 Create 按 钮 ，Kibana 将 会 对 相应 的 索引 进行 查阅 ， 之 后 则 会 进入 | 


OHLCV 字 段 的 类 型 ， 是 否 可 以 被 加 总 ， 是 否 按 文字 进行 分 析 等 信息 。 

















每 个 Kibana 集 群 都 可 以 对 多 个 索引 进行 可 视 化 。 如 果 有 需要 ， 可 以 点 击 左 上 角 的 Add New 按 钮 ， 添 加 更 多 的 索引 到 Kibana 可 视 化 界面 中 来 。 


9.4.3 ”交互 式 搜索 


对 数据 进行 可 视 化 操作 的 第 一 步 ， 往 往 是 需要 进行 一 些 交 互 式 的 数据 查阅 ， 了 解数 据 的 字段 


Discover 按 钮 ， 即 可 来 到 交互 式 搜索 界面 ， 类 似 于 图 9-7 所 示 []。 





数据 初探 操作 区 可 以 大 致 分 为 如 下 三 个 





部 分 。 
“ 搜索 栏 : 位 于 操作 页 面 的 上 方 ， 可 以 输入 一 些 关键 字 ， 


“ 字段 选择 : 下 左 栏 ， 可 以 对 搜索 结果 的 字段 进行 选择 。 


搜索 结果 : 下 右 区 域 ， 可 以 在 这 里 看 到 搜索 的 结果 和 这 些 结果 的 时 间 序列 分 布 。 


例如 ， 在 搜索 栏 中 输入 FB ( 脸 书 公司 的 股票 代码 ) ， 
美元 报价 乘 以 1000。 





点 击 搜索 按钮 ， 即 可 在 下 面 的 结果 区 域 中 显示 出 示例 搜索 结果 


属性 和 大 致 分 布 情况 。 这 样 的 操作 可 以 通过 Kibana 的 数据 初探 (Discover) 工 


即 可 在 搜索 结果 栏 中 显示 出 一 些 记录 。 输 入 其 他 公司 的 代码 ， 如 AAPL 等 ， 还 可 以 看 到 其 他 公司 的 示例 。 可 以 注意 到 ， 该 数据 集 所 





























图 9-6b 所 示 的 界面 。 该 界面 显示 了 相应 索引 的 字段 信息 ， 如 


来 完成 。 点 击 左边 栏 的 


用 报价 的 单位 为 


New Save Share © tas2yexs 





Dashboard 
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August 4#h 2015, 1255.49,.000 


9.4.4 可视化 操作 


对 数据 进行 了 初步 的 了 解 之 后 ， 就 可 以 开始 可 视 化 的 操作 了 ， 点 击 Kibana 操 作 页 面 左 栏 中 的 可 视 化 (Visualize) 按钮 ， 即 可 进入 可 视 化 操作 界面 。 第 一 次 进入 的 可 视 化 操作 界面 时 ， 该 界面 如 图 
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9-7 ”Kibana 索 引 配 置 界面 





9-8 所 
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change of unrelated data points as changes In a serles lower down the stack 
melon will have a diffioult to gauge effect on the series above il, No mmatdhing visuallzations found, 


Dashboard 


Mananement 


围 ”Data table 


The data table provides a detailed breakdown, in tabular format, of the results 
of a composed aggregation. Tip, a data table is avallable from many other 
Charts by clicking grey bar at the bottom of the chart. 


I Line chart 


Often the best chart for high denslty time serles. Great for comparing one 
Serles to another, Be Careful with sparse sets as the COnnection between polnts 
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Useful for displaying explanations or instructions for dashboards. 
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图 9-8 ”Kibana 索 引 配 置 界面 


可 视 化 操作 界面 的 左边 栏 ， 可 以 创建 新 的 可 视 化 ， 其 中 选项 包括 直方 图 (Area Chart) 、 表 格 (Data Table) 、 线 图 (Line Chart) 、 饼 图 (Pie Chart) 、 块 状 地 图 (Tile Map) 等 。 可 视 化 操作 界面 
的 右边 ， 可 以 对 保存 的 可 视 化 结果 进行 编辑 。 在 初次 运行 的 时 候 ， 右 边栏 的 内 容 往往 为 空 ， 因 为 暂时 还 没有 可 以 修改 的 可 视 化 结果 。 下 面 就 对 实时 报价 数据 进行 饼 图 、 线 图 和 关键 数据 可 视 化 。 





























1. 饼 图 可 视 化 








| 





饼 图 可 以 让 我 们 对 不 同 来 源 的 相同 属性 数据 的 比例 有 一 个 直观 的 认识 。 这 里 以 可 视 化 成 交 量 为 例 ， 进 行 饼 图 可 视 化 操作 。 





如 图 9-9 所 示 ， 点 击 可 视 化 界面 中 的 饼 图 选项 (Pie Chart) ， 进 入 饼 图 创建 界面 。 该 界面 分 为 上 方 搜索 栏 、 下 左 侧 配 置 栏 和 下 右 侧 结果 栏 三 部 分 。 进 行 饼 图 可 视 化 操作 需要 考虑 下 面 三 方面 的 信息 。 











“ 数据 总 体 : 所 有 的 可 视 化 结果 都 是 建立 在 搜索 栏 的 搜索 结果 之 上 的 ， 可 以 利用 搜索 栏 ， 缩 小 所 需 可 视 化 数据 的 范围 。 这 里 需要 对 所 有 可 用 的 数据 进行 可 视 化 ， 所 以 该 栏 暂时 为 任意 符 。 


: 饼 图 数值 (mettic) : 饼 图 的 数据 应 该 代表 什么 概念 呢 ? 这 里 可 以 设置 加 总 方式 (Aggregation) 和 加 总 数值 (Field) 。 其 中 加 总 方式 包括 总 和 (Sum) 、 计 数 (Count) 、 均 值 (Mean) 等 多 种 方法 ， 这 
里 选择 了 对 成 交 量 (Volume) 进行 总 和 。 


: 分 块 方式 (bucket) : 饼 图 应 该 按照 什么 样 的 方式 进行 分 块 ?可 以 按照 关键 词 (Terms) 等 多 种 方式 进行 分 块 。 这 里 按照 代码 关键 词 进行 分 块 。 
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图 9-9 ”Kibana 饼 图 配置 界面 


完成 上 面 的 配置 之 后 ， 只 需要 点 击 左边 配置 栏目 的 蓝 色 运 行 按钮 ， 即 可 在 右边 看 到 可 视 化 结果 。 想 要 保存 该 结果 ， 点 击 本 页 顶端 的 保存 (Save) 按钮 ， 即 可 将 本 界面 的 可 视 化 结果 保存 起 来 ， 以 供 日 后 
使 用 。 


2. 关 键 数 据 可 视 化 


有 的 时 候 我 们 需要 将 一 些 非常 关键 的 KPI 数据 也 加 入 到 实时 监控 面板 中 ， 例 如 实时 报价 等 信息 ， 这 样 可 以 一 目 了 然 地 对 整体 情况 进行 了 解 ， 在 Kipana 中 进行 这 样 的 操作 也 是 非常 方便 的 ， 在 Kibana 可 视 
化 界面 中 选择 关键 数据 (Metric) ， 即 可 来 到 如 图 9-10 所 示 的 关键 数据 可 视 化 操作 界面 。 关 键 数据 可 视 化 界面 和 前 面 的 饼 图 可 视 化 界面 类 似 : 同样 可 以 通过 搜索 栏 来 缩小 可 视 化 数据 的 范围 ， 例 如 这 里 输入 
了 关键 词 fp， 将 仅 对 Facebook 公 司 的 股票 价格 进行 呈现 ; 左下 栏 是 配置 区 域 ， 可 以 选择 对 不 同 的 字段 进行 不 同方 式 的 呈现 ， 这 里 选择 了 对 每 秒 收盘 价 的 百 分 位 数 进 行 可 视 化 。 











同样 的 ， 在 完成 以 上 配置 之 后 ， 可 以 点 击 浅 蓝 色 的 运行 按钮 ， 运 行 查询 对 数据 进行 可 视 化 ， 也 可 以 点 击 当前 界面 项 端的 保存 (Save) 按钮 对 当前 可 视 化 结果 进行 保存 。 


回 Fe dosing percent x 
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图 9-10 ”Kibana 关 键 值 配置 界面 








3. 时 间 序 列 可 视 化 


Kibana 最 重要 的 功能 是 对 时 间 序 列 进行 可 视 化 ， 为 此 Kibana 的 开发 团队 专门 开发 了 一 套 名 为 Timelion 的 时 间 序 列 可 视 化 工具 ， 该 工具 自身 配备 了 一 套 语言 ， 可 以 方便 地 对 时 间 序 列 进行 各 种 设置 。 











启动 该 工具 ， 只 需要 点 击 Kibana 操 作 面 板 左边 的 Timelion 按 钮 即 可 ， 进 入 的 界面 包含 命令 栏 和 结果 栏 两 部 分 。Timelion 的 主要 文档 位 于 该 操作 界面 顶端 的 文档 (Doc) 按钮 中 ,一般 用 户 都 可 以 据 此 依 
样 进 行 操作 。 如 图 9-11 所 示 ， 笔 者 对 Facebook 公 司 股票 的 收盘 价 进行 了 可 视 化 。 该 可 视 化 命令 为 : 




















.es (index=stock price-*, 
metric="avg:Close", 
timefield="timestamp", 
q=fb) 





上 述 命令 可 以 进行 如 下 的 分 解 。 

“ 数据 来 源 : Timelion 的 功能 非常 强大 ， 不 但 可 以 从 Elasticsearch 中 读 取 数据 ， 还 能 从 World Bank 等 计量 经 济 数据 提供 者 中 直接 读 取 数据 。 所 以 .es 命令 告诉 Timelion 将 从 Elasticsearch 中 读 取 数 据 。 
“ 索引 名 称 : 这 里 的 index 字 段 告诉 Timelion 将 从 名 为 stock_price- 的 任意 索引 中 读 取 数据 。 

“ 计算 结果 : mettic 字 段 告诉 Timelion 需 要 为 每 秒 收盘 价 计算 平均 值 。 

“ 时 间 稚 字段 : 该 字段 告诉 Timelion 用 什么 字段 作为 时 间 惟 。 


“ 数据 搜索 : 这 里 告诉 Timelion 仅 仅 对 包含 全 关键 词 的 记录 进行 可 视 化 。 
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图 9-11 Timelion 对 时 间 序 列 进行 可 视 化 的 结果 


同样 的 ,执行 完成 以 上 操作 之 后 ， 就 可 以 点 击 页 面 顶 端的 保存 (Save) 按钮 来 保存 当前 的 可 视 化 结果 了 ， 如 图 9-11 所 示 。 





9.4.5 ”实时 检测 面板 


进行 实时 数据 检测 ， 往 往 需要 同时 监控 多 个 数据 可 视 化 结果 ， 这 就 要 求 对 前 面 的 数据 可 视 化 结果 进行 整合 ， 最 后 制 成 实时 检测 面板 。 此 外 ， 还 需要 对 可 视 化 面板 进行 自动 化 更 新 。 

















点 击 Kibana 左 侧 监控 面板 (Dashboard) 按钮 ， 其 中 ， 页 面 顶端 的 添加 (Add) 按钮 可 用 于 添加 可 视 化 原件 。 这 里 可 以 选择 前 面 保存 的 三 个 可 视 化 结果 ， 将 它们 添加 到 该 面板 中 。Kibana 的 可 视 化 操作 
选项 已 经 非常 强大 ， 可 以 交互 式 地 对 各 个 可 视 化 原件 进行 缩放 、 拖 灸 位 移 。 满 意 之 后 ， 保 存 上 面 的 可 视 化 结果 ， 最 后 即 可 得 到 图 9-12。 








类 似 的 ， 也 可 以 保存 该 检测 面板 的 设置 ， 保 存 过 程 中 可 以 设置 是 否 实时 更 新 面板 的 内 容 。 最 后 可 以 通过 页 面 最 上 方 的 分 享 (Share) 按钮 ， 将 该 面板 的 内 容 分 享 给 其 他 人 员 ， 方 便 所 有 相关 人 员 对 数据 
实行 实时 监控 . 
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图 9-12 ”Kibana 实 时 检测 面板 配置 结果 
四 注意 这 里 的 数据 时 间 区 间 位 于 2015 年 8 月 3 日 到 2015 年 8 月 4 日 ， 我 们 需要 点 击 右上 角 的 搜索 时 间 区 间 ， 进 行 相应 的 选择 ， 才 能 获得 本 节 例 子 中 的 效果 。 


第 10 章 ”机 器 学 习 系 统 设计 模式 


10.1 设计 模式 的 前 世 今 生 


10.1.1 单机 设计 模式 逐渐 式微 
































设计 模式 (design pattern) 在 计算 机 专业 学 科 里 面 往往 是 一 个 学 期 的 专业 课程 。 在 计算 机 软件 开发 仍然 以 单机 开发 为 主 的 时 代 ， 设 计 模式 就 单独 提 了 出 来 ， 用 于 总 结 在 实际 应 用 中 经 常 出 现 的 开发 形 
式 。 








例如 在 传统 单机 编程 中 ， 我 们 往往 需要 按照 用 户 的 选择 创造 不 同 的 对 象 。 而 这 类 工作 被 众多 计算 机 编程 的 先贤 们 总 结 出 来 ， 取 名 为 工厂 方法 模式 (factory pattern) 。 计 算 机 基础 经 典 教材 《设计 模 
式 》 一 书 中 ， 一 共 列 出 了 23 种 常用 的 设计 模式 。 设 计 模式 至 今 仍然 是 众多 互联 网 公司 软件 工程 师 面试 的 重要 部 分 之 一 ， 在 传统 单机 版 软件 的 设计 中 ， 仍 然 有 着 举足轻重 的 作用 。 














可 是 ， 自 2010 年 以 后 ， 传 统 单机 软件 设计 模式 这 样 的 概念 逐渐 式微 ， 笔 者 认为 有 下 面 几 个 方面 的 原因 。 











(1) 微服 务 兴 


单机 程序 时 代 ， 计 算 机 程序 主要 由 单个 代码 库 构 成 ， 这 就 需要 代码 符合 设计 模式 的 要 求 ; 而 计算 机 网 络 时 代 ， 计 算 机 程序 可 能 是 由 众多 装载 在 Docker 虚 拟 机 中 的 微服 务 构成 的 。 每 个 微服 务 都 具有 特定 
的 功能 ， 以 前 传统 设计 模式 所 需要 完成 的 任务 ， 往 往 会 被 微服 务 系统 架构 所 代劳 。 





(2) 面向 函数 编程 的 兴 


设计 模式 的 撰写 是 随 着 面向 对 象 编程 而 产生 的 ， 在 当今 快速 和 迭代、 服务 器 无 状态 性 要 求 的 情况 下 ， 面 向 函数 编程 的 做 法 逐渐 成 为 了 主流 。 一 些 在 面向 对 象 的 编程 中 ， 需 要 使 用 复杂 设计 模式 才能 完成 的 
任务 ， 在 Clojure 等 面向 函数 编程 的 语言 下 ， 只 需要 若干 行 代码 即 可 完成 。 


(3) 开源 软件 大 行 其 道 


在 单机 编程 时 代 ， 一 个 程序 的 众多 功能 往往 都 需要 通过 自身 的 代码 库 来 实现 。 而 在 现 如 今 百 花 齐 放 的 开放 源 代码 社区 里 面 ， 常 见 的 任务 都 已 经 可 以 直接 使 用 成 熟 的 开放 源 代码 软件 。 以 前 需要 多 加 考虑 
的 RPC 模 式 、PubSub 模 式 等 ， 都 已 经 可 以 通过 RabbitMQ 等 服务 自动 实现 ， 这 也 大 大 减少 了 开发 人 员 重 复 造 轮子 的 必要 。 








10.1.2 ”微服 务 取代 设计 模式 的 示例 





本 节 采 用 实时 存储 金融 市 场 报价 数据 的 例子 进行 说 明 。 在 实时 金融 预测 等 场景 中 ， 往 往 需要 对 股票 和 期 权 两 种 金融 工具 的 报价 进行 存储 。 股 票 的 实时 报价 包含 时 间 戳 、 股 票 代码 、 价 格 三 个 方面 ; 期 权 
的 实时 报价 信息 还 包括 行 权 价格 、 期 权 种 类 两 项 额外 的 信息 。 这 样 的 数据 往往 会 用 关系 型 数据 库 进 行 存储 ， 将 股票 和 期 权 信息 分 别 保存 到 不 同 的 数据 表 中 。 与 此 同时 ， 我 们 还 需要 对 数据 的 存储 工作 产生 日 
志 ， 以 便 进 行 监控 。 











对 于 这 样 的 任务 ， 不 同时 期 的 开发 人 员 通 常会 开发 出 两 种 不 同 的 方案 ， 设 计 模 式 指导 思想 下 的 设计 往往 会 和 微服 务 指导 思想 下 的 设计 大 相 径 庭 。 设 计 模 式 指导 思想 下 的 设计 如 图 10-1 所 示 。 在 设计 模式 
下 开发 出 的 实时 金融 数据 存储 架构 往往 会 如 图 10-2 所 示 。 
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图 10-2 ”在 微服 务 开发 环境 中 ， 实 时 金融 数据 存储 架构 


单机 开发 环境 中 的 设计 方案 分 为 以 下 三 个 部 分 。 
1) 开发 人 员 定 义 报价 数据 类 ， 并 让 股票 报价 和 期 权 报价 分 别 继承 报价 数据 类 。 为 了 根据 实时 数据 产生 对 应 的 对 象 ， 开 发 人 员 还 需要 定义 报价 数据 工厂 类 ， 按 照 实际 到 来 的 数据 产生 对 应 的 对 象 。 


2) 每 一 个 由 报价 数据 工厂 产生 的 对 象 ， 都 可 以 通过 对 象 关 系 映射 框架 (Object Relation Mapping，ORM) ， 如 Java 下 的 Hibernate， 存 储 到 关系 型 数据 库 对 应 的 表单 中 。 








3) 为 了 进行 日 志 管 理 ， 开 发 人 员 还 需要 在 报价 数据 工厂 中 自行 编写 日 志 产 生 的 逻辑 。 


在 主流 语言 (如 Java) 下 开发 这 样 的 服务 ， 往 往 需要 200 行 左右 的 代码 ， 定 义 4 ~ 5 个 类 。 其 浆 端 是 显而易见 的 ， 首 先 开 发 速度 缓慢 ， 开 发 人 员 的 大 部 分 时 间 耗 费 在 了 定义 类 关系 上 ， 而 不 是 描述 该 架构 
应 该 具体 完成 的 工作 上 ; 其 次 ， 由 于 采用 了 设计 模式 和 多 个 类 ， 运 行 过 程 中 的 排 错 是 个 很 大 的 问题 ; 最 后 ， 由 于 代码 需要 人 工 编写 ， 因 此 免不了 在 后 期 进行 修 修补 补 。 
























































与 此 相对 应 ， 采 用 微服 务 的 指导 思想 ， 开 发 出 来 的 设计 方案 可 以 分 为 以 下 两 部 分 。 
































1) 用 Logstash 负 责 将 数据 按照 内 容 进行 分 类 ， 分 类 后 的 数据 按照 配置 进入 对 应 的 数据 表 中 。 




















2) 为 了 方便 排 错 ，LogStash 日 志文 件 将 直接 进入 日 志 服 务 中 。 











值得 注意 的 是 ， 按 照 上 面 的 方法 配置 服务 ， 我 们 不 需要 进行 任何 编程 ， 只 需要 进行 LogStash 配 置 即 可 。 ee 可 以 非常 直观 地 
进行 排 错 和 分 析 。LogStash 是 工业 界 广泛 使 用 的 成 熟 软 件 ， 日 志 等 功能 非常 完善 ， 很 方便 用 于 排 错 ， 而 且 不 用 人 工 编写 日 志 逻 辑 。 由 于 人 工 干预 大 大 减少 ， 因 此 整个 系统 的 开发 效率 和 稳定 性 得 到 大 大 提 


















































10.1.3 ”微服 务 设计 模式 的 兴起 




















单机 设计 模式 逐渐 式微 ， 是 否 代表 设计 模式 这 样 的 思想 完全 过 时 了 呢 ? 其 实 不 是 的 。 机 器 学 习 从 业 人 员 发 现 ， 在 微服 务 中 ,不同 的 服务 排列 组 合 ， 也 遵循 着 各 种 规律 。 这 样 的 规律 逐渐 总 结 起 来 ， 就 成 
为 了 微服 务 时 代 的 新 型 设计 模式 。 














与 经 典 的 单机 设计 模式 的 定义 不 同 ， 现 今 基 于 微服 务 的 设计 模式 仍然 还 在 总 结 归纳 的 过 程 中 。 笔 者 阅读 过 大 量 的 相关 文献 ， 发 现 到 本 书 交 稿 时 间 为 止 ， 工 业界 暂时 还 没有 一 个 统一 的 微服 务 设计 模式 指 
导 。 例 如 ， 有 专业 人 员 将 微服 务 设计 模式 按照 服务 之 间 的 网 络 结构 进行 划分 ， 定 义 了 总 和 、 代 理 、 链 式 、 分 支 、 共 享 数据 、 异 步 消息 等 设计 模式 []。 在 本 书 的 前 面 (第 5 章 ) 也 已 经 提 到 过 ， 在 数据 处 理 领 
域 ,专业 人 员 已 经 总 结 出 了 Lambda 架 构 ，Lambda 架 构 可 以 说 是 一 个 按照 功能 结构 定义 的 设计 模式 。 








为 了 配合 本 书 的 内 容 ， 在 此 将 微服 务 架构 设计 按照 功能 进行 分 类 ， 可 以 分 为 如 下 三 个 大 类 : 
“ 读 取 
“更 新 


“ 处 理 





























每 个 大 类 都 将 总 结 出 常用 的 微服 务 架 构 设 计 模 式 。 配 合 前 面 章节 介绍 的 实时 机 器 学 习 架 构 组 成 部 件 ， 我 们 将 在 此 对 各 个 设计 模式 进行 详细 介绍 。 这 里 的 设计 模式 由 本 书 笔者 自主 提出 ， 其 内 容 在 业界 尚 
属 首次 。 






































另外 值得 一 提 的 是 ， 我 们 在 此 提倡 的 微服 务 设计 模式 是 对 以 往 单 机 软件 开发 设计 模式 的 补充 ， 其 着 眼 点 是 从 多 个 服务 组 合 而 成 的 系统 架构 入 手 。 这 并 不 妨碍 我 们 在 各 个 服务 的 编程 中 仍然 使 用 单机 开发 
的 设计 模式 思想 。 另 外 ， 本 章 内 容 仍然 沿用 设计 模式 定义 中 的 基本 概念 ， 我 们 将 按照 下 面 这 些 要 点 进行 介绍 : 模式 名 、 问 题 、 解 决 方案 、 动 机 、 性 、 结 构 、 参 与 者 、 影 响 、 实 现 、 已 知 应 用 等 内 容 。 




































































[中 详 见 http://blog.arungupta.me/microservice-design-patterns/。 


第 10 章 ”机 器 学 习 系 统 设计 模式 


10.1 设计 模式 的 前 世 今 生 


10.1.1 单机 设计 模式 逐渐 式微 






































设计 模式 (design pattern) 在 计算 机 专业 学 科 里 面 往往 是 一 个 学 期 的 专业 课程 。 在 计算 机 软件 开发 仍然 以 单机 开发 为 主 的 时 代 ， 设 计 模 式 就 单独 提 了 出 来 ， 用 于 总 结 在 实际 应 用 中 经 常 出 现 的 开发 形 
式 。 




















例如 在 传统 单机 编程 中 ， 我 们 往往 需要 按照 用 户 的 选择 创造 不 同 的 对 象 。 而 这 类 工作 被 众多 计算 机 编程 的 先贤 们 总 结 出 来 ， 取 名 为 工厂 方法 模式 (factory pattern) 。 计 算 机 基础 经 典 教材 《设计 模 
式 》 一 书 中 ， 一 共 列 出 了 23 种 常用 的 设计 模式 。 设 计 模式 至 今 仍然 是 众多 互联 网 公司 软件 工程 师 面试 的 重要 部 分 之 一 ， 在 传统 单机 版 软件 的 设计 中 ， 仍 然 有 着 举足轻重 的 作用 。 






















































































可 是 ， 自 2010 年 以 后 ， 传 统 单机 软件 设计 模式 这 样 的 概念 逐渐 式微 ， 笔 者 认为 有 下 面 几 个 方面 的 原因 。 























(1) 微服 务 兴 起 























单机 程序 时 代 ， 计 算 机 程序 主要 由 单个 代码 库 构 成 ， 这 就 需要 代码 符合 设计 模式 的 要 求 ; 而 计算 机 网 络 时 代 ， 计 算 机 程序 可 能 是 由 众多 装载 在 Docker 虚 拟 机 中 的 微服 务 构成 的 。 每 个 微服 务 都 具有 特定 
的 功能 ， 以 前 传统 设计 模式 所 需要 完成 的 任务 ， 往 往 会 被 微服 务 系统 架构 所 代劳 。 























(2) 面向 函数 编程 的 兴起 























设计 模式 的 撰写 是 随 着 面向 对 象 编程 而 产生 的 ， 在 当今 快速 和 迭代、 服务 器 无 状态 性 要 求 的 情况 下 ， 面 向 函数 编程 的 做 法 逐渐 成 为 了 主流 。 一 些 在 面向 对 象 的 编程 中 ， 需 要 使 用 复杂 设计 模式 才能 完成 的 
任务 ， 在 Clojure 等 面向 函数 编程 的 语言 下 ， 只 需要 若干 行 代码 即 可 完成 。 
































(3) 开源 软件 大 行 其 道 


























在 单机 编程 时 代 ， 一 个 程序 的 众多 功能 往往 都 需要 通过 自身 的 代码 库 来 实现 。 而 在 现 如 今 百 花 齐 放 的 开放 源 代码 社区 里 面 ， 常 见 的 任务 都 已 经 可 以 直接 使 用 成 熟 的 开放 源 代码 软件 。 以 前 需要 多 加 考虑 
的 RPC 模 式 、PubSub 模 式 等 ， 都 已 经 可 以 通过 RabbitMQ 等 服务 自动 实现 ， 这 也 大 大 减少 了 开发 人 员 重 复 造 轮子 的 必 



































10.1.2 ”微服 务 取 代 设 计 模 式 的 示例 

















本 节 采 用 实时 存储 金融 市 场 报价 数据 的 例子 进行 说 明 。 在 实时 金融 预测 等 场景 中 ， 往 往 需要 对 股票 和 期 权 两 种 金融 工具 的 报价 进行 存储 。 股 票 的 实时 报价 包含 时 间 戳 、 股 票 代码 、 价 格 三 个 方面 ; 期 权 
的 实时 报价 信息 还 包括 行 权 价格 、 期 权 种 类 两 项 额外 的 信息 。 这 样 的 数据 往往 会 用 关系 型 数据 库 进 行 存储 ， 将 股票 和 期 权 信息 分 别 保存 到 不 同 的 数据 表 中 。 与 此 同时 ， 我 们 还 需要 对 数据 的 存储 工作 产生 日 
志 ， 以 便 进 行 监控 。 
























































对 于 这 样 的 任务 ， 不 同时 期 的 开发 人 员 通 常会 开发 出 两 种 不 同 的 方案 ， 设 计 模 式 指 导 思 想 下 的 设计 往往 会 和 微服 务 指导 思想 下 的 设计 大 相 径 庭 。 设 计 模 式 指导 思想 下 的 设计 如 图 10-1 所 示 。 在 设计 模式 
下 开发 出 的 实时 金融 数据 存储 架构 往往 会 如 图 10-2 所 示 。 
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图 10-1 在 单机 开发 环境 中 ， 使 用 设计 模式 开发 的 实时 金融 数据 存储 架构 
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10-2 在 微服 务 开发 环境 中 ， 实 时 人 金融 数据 存储 架构 





单机 开发 环境 中 的 设计 方案 分 为 以 下 三 个 部 分 。 

1) 开发 人 员 定义 报价 数据 类 ， 并 让 股票 报价 和 期 权 报价 分 别 继承 报价 数据 类 。 为 了 根据 实时 数据 产生 对 应 的 对 象 ， 开 发 人 员 还 需要 定义 报价 数据 工厂 类 ， 按 照 实际 到 来 的 数据 产生 对 应 的 对 象 。 
2) 每 一 个 由 报价 数据 工厂 产生 的 对 象 ， 都 可 以 通过 对 象 关 系 映射 框架 (Object Relation Mapping，ORM) ， 如 Java 下 的 Hibernate， 存 储 到 关系 型 数据 库 对 应 的 表单 中 。 

3) 为 了 进行 日 志 管 理 ， 开 发 人 员 还 需要 在 报价 数据 工厂 中 自行 编写 日 志 产 生 的 逻辑 。 


在 主流 语言 (如 Java) 下 开发 这 样 的 服务 ， 往 往 需要 200 行 左右 的 代码 ， 定 义 4 ~ 5 个 类 。 其 弊端 是 显而易见 的 ， 首 先 开发 速度 缓慢 ， 开 发 人 员 的 大 部 分 时 间 耗 费 在 了 定义 类 关系 上 ， 而 不 是 描述 该 架构 
应 该 具体 完成 的 工作 上 其次， 由 于 采用 了 设计 模式 和 多 个 类 ， 运 行 过 程 中 的 排 错 是 个 很 大 的 问题 ; 最 后 ， 由 于 代码 需要 人 工 编写 ， 因 此 免不了 在 后 期 进行 修 修补 补 。 











与 此 相对 应 ， 采 用 微服 务 的 指导 思想 ， 开 发 出 来 的 设计 方案 可 以 分 为 以 下 两 部 分 。 




















1) 用 Logstash 负 责 将 数据 按照 内 容 进行 分 类 ， 分 类 后 的 数据 按照 配置 进入 对 应 的 数据 表 中 。 


2) 为 了 方便 排 错 ，Logstash 日 志文 件 将 直接 进入 日 志 服务 中 。 








值得 注意 的 是 ， 按 照 上 面 的 方法 配置 服务 ， 我 们 不 需要 进行 任何 编程 ， 只 需要 进行 LogStash 配 置 即 可 。 配 置 文件 包括 LogStash 配 置 文件 和 对 关系 型 数据 库 进 行 操作 的 SQL 文件 两 部 分 ， 可 以 非常 直观 地 
进行 排 错 和 分 析 。LogStash 是 工业 界 广泛 使 用 的 成 熟 软 件 ， 日 志 等 功能 非常 完善 ， 很 方便 用 于 排 错 ， 而 且 不 用 人 工 编写 日 志 逻 辑 。 由 于 人 工 干预 大 大 减少 ， 因 此 整个 系统 的 开发 效率 和 稳定 性 得 到 大 大 提 
高 。 
























































10.1.3 ”微服 务 设计 模式 的 兴起 

















单机 设计 模式 逐渐 式微 ， 是 否 代表 设计 模式 这 样 的 思想 完全 过 时 了 呢 7 其 实 不 是 的 。 机 器 学 习 从 业 人 员 发 现 ， 在 微服 务 中 ， 不 同 的 服务 排列 组 合 ， 也 遵循 着 各 种 规律 。 这 样 的 规律 逐渐 总 结 起 来 ， 就 成 
为 了 微服 务 时 代 的 新 型 设计 模式 。 











与 经 典 的 单机 设计 模式 的 定义 不 同 ， 现 今 基 于 微服 务 的 设计 模式 仍然 还 在 总 结 归纳 的 过 程 中 。 笔 者 阅读 过 大 量 的 相关 文献 ， 发 现 到 本 书 交 稿 时 间 为 止 ， 工 业界 暂时 还 没有 一 个 统一 的 微服 务 设 计 模 式 指 
导 。 例 如 ， 有 专业 人 员 将 微服 务 设计 模式 按照 服务 之 间 的 网 络 结 构 进 行 划分 ， 定 义 了 总 和 、 代 理 、 链 式 、 分 支 、 共 享 数据 、 异 步 消息 等 设计 模式 [1]。 在 本 书 的 前 面 (第 5 章 ) 也 已 经 提 到 过 ， 在 数据 处 理 领 
域 ， 专 业 人 员 已 经 总 结 出 了 Lambda 架 构 ，Lambda 架 构 可 以 说 是 一 个 按照 功能 结构 定义 的 设计 模式 。 




















为 了 配合 本 书 的 内 容 ， 在 此 将 微服 务 架构 设计 按照 功能 进行 分 类 ， 可 以 分 为 如 下 三 个 大 类 : 
“ 读 取 
“更 新 


“处理 











每 个 大 类 都 将 总 结 出 常用 的 微服 务 架构 设计 模式 。 配 合 前 面 章节 介绍 的 实时 机 器 学 习 架 构 组 成 部 件 ， 我 们 将 在 此 对 各 个 设计 模式 进行 详细 介绍 。 这 里 的 设计 模式 由 本 书 笔者 自主 提出 ， 其 内 容 在 业界 尚 
属 首次 。 















































另外 值得 一 提 的 是 ， 我 们 在 此 提倡 的 微服 务 设计 模式 是 对 以 往 单机 软件 开发 设计 模式 的 补充 ， 其 着 眼 点 是 从 多 个 服务 组 合 而 成 的 系统 架构 入 手 。 这 并 不 妨碍 我 们 在 各 个 服务 的 编程 中 仍然 使 用 单机 开发 
的 设计 模式 思想 。 另 外 ， 本 章 内 容 仍然 沿用 设计 模式 定义 中 的 基本 概念 ， 我 们 将 按照 下 面 这 些 要 点 进行 介绍 : 模式 名 、 问 题 、 解 决 方案 、 动 机 、 适 用 性 、 结 构 、 参 与 者 、 影 响 、 实 现 、 已 知 应 用 等 内 容 。 




































































上 详 见 http://blogarunguptame/microservice-design-patterns/ 。 


10.2 读 : 高 速 键 值 模式 


10.2.1 问题 场景 









































在 实时 机 器 学 习 的 应 用 中 ， 我 们 往往 需要 对 一 些 数据 进行 快速 读 取 ， 而 且 在 读 取 的 过 程 中 ， 读 取 结 果 和 查询 所 用 的 信息 要 有 一 一 对 应 的 关系 。 这 样 的 问题 常常 采用 高 速 键 值 模式 来 解决 。 下 面 是 一 个 应 
场景 的 例子 。 


















































1. 实 时 呈现 预先 处 理 好 的 结果 








在 进行 内 容 、 产 品 、 用 户 推荐 的 时 候 ， 我 们 往往 可 能 会 先 通过 离线 批 处 理 的 方式 训练 好 机 器 学 习 推荐 模型 ， 这 个 时 候 就 会 得 到 类 似 于 下 面 的 数据 : 

















用 户 ID: 
[ 


推荐 内 容 1: 得 分 1 
人 得 分 2， 


























注意 : 这 样 的 应 用 往往 对 延迟 有 较为 苛刻 的 要 求 ， 在 获得 用 户 1D 的 情况 下 ， 微 服务 最 好 在 若干 微 秒 之 内 就 能 返回 推荐 内 容 ， 这 就 使 得 查询 不 能 过 于 复杂 或 耗 时 太 长 。 


























2. 对 网 页 访问 等 进行 计数 












































当今 各 种 网 站 、 应 用 往往 都 有 实时 计数 器 ， 社 交 网 络 往往 也 会 统计 对 各 个 文章 的 赞 数 。 这 样 的 数据 都 需要 以 非常 低 的 延迟 进行 更 新 ， 并 且 提 供给 所 有 访问 的 用 户 。 在 这 种 情况 下 ， 网 页 ID 和 用 户 ID 是 具 
体 给 定 而 且 不 变 的 ， 而 数据 则 可 能 随时 改变 。 对 于 网 页 访问 统计 的 情况 ， 我 们 往往 会 得 到 如 下 的 数据 : 























{ 
网 页 ID: { 
访问 数量 : 计数 


10.2.2 ”解决 方案 


























为 了 解决 上 述 高 速 读 取 数 据 的 问题 ， 我 们 通常 会 采用 微服 务 设计 模 式 中 的 高 速 键 值 模式 作为 解决 方案 。 高 速 键 值 模式 微服 务 结构 如 图 10-3 所 示 。 这 样 的 架构 往往 包含 如 下 几 个 方面 。 











数据 请 求 端 键 值 数据 服务 





7 
刍 值 
图 10-3 ”高 速 键 值 设计 模式 的 微服 务 架 构 
“ 数据 请 求 端 : 数据 请 求 端 是 整个 请 求 的 发 出 方 。 例 如 ， 对 于 网 页 计数 器 的 场景 ， 数 据 请 求 端 可 能 是 网 页 前 端 服务 。 


“ 数据 键 值 服 务 : 数据 键 值 服务 是 整个 请 求 的 处 理 单元 。 该 处 理 单元 会 对 请 求 进行 加 工整 理 ， 并 且 从 中 提取 出 所 需 读 取 的 键 (key) ， 读 取 数 据 ， 并 且 对 异常 情况 进行 反馈 ， 对 结果 进行 加 工 ， 并 且 最 后 
反馈 给 数据 请 求 端 。 


“ 键 值 数据 库 : 键 值 数据 库 是 数据 存储 的 位 置 。 常 用 的 键 值 数据 库 包 括 Redis 等 。 


10.2.3 ”其 他 使 用 场景 





























除了 前 面 提 到 的 网 页 计数 、 推 荐 系统 等 应 用 场景 之 外 ， 高 速 键 值 设计 模式 还 可 用 于 以 下 应 用 场景 。 

















1. 关 键 词 扩展 









































在 搜索 等 应 用 场景 中 ， 我 们 往往 需要 对 关键 词 进行 扩展 。 例 如 “天 平 座 ”这 样 一 个 关键 词 ， 可 以 被 扩展 成 为 “天 秤 座 ” “Libra” 等 类 似 的 词语 。 通 过 这 样 的 关键 词 扩展 ， 可 以 增 大 搜索 范围 ， 提 高 用 户 
体验 。 



































关键 词 扩展 所 用 的 数据 通常 是 通过 自然 语义 专家 在 线 下 整理 完成 的 。 在 线 上 使 用 的 时 候 ， 可 以 通过 高 速 键 值 设计 模式 对 应 的 架构 ， 进 行 关键 词 扩 展 。 如 果 读 者 有 幸 能 够 阅读 一 些 搜索 引擎 的 核心 算法 代 
码 ， 可 以 发 现 大 量 结构 都 可 以 利用 这 样 的 结构 来 完成 。 












































2. 机 器 学 习 模型 参数 存储 





























在 使 用 机 器 学 习 模 型 的 时 候 ， 一 些 可 变 的 参数 往往 需要 存储 起 来 ， 以 便于 调用 。 在 外 部 服务 中 存储 参数 ， 可 以 便于 日 后 对 模型 的 更 改 和 对 参数 的 更 新 。 在 调用 机 器 学 习 模 型 之 前 ， 通 过 高 速 键 值 设 计 模 
式微 服务 来 获得 所 有 参数 ， 是 工业 界 中 机 器 学 习 预 测 一 个 非常 常见 的 做 法 。 


























10.3 读 : 缓存 高 速 查询 模式 


10.3.1 问题 场景 





























在 机 器 学 习 实 战 应 用 中 ， 键 值 的 存储 形式 往往 不 能 完全 胜任 所 有 的 需求 ， 开 发 人 员 仍然 需要 按照 查询 的 方式 从 数据 库 中 对 数据 进行 读 取 ， 以 供 机 器 学 习 模型 使 用 ， 而 且 这 样 的 查询 需要 尽量 快 完成 。 为 
此 ， 缓 存 高 速 查询 模式 就 顺理成章 地 出 现 了 。 

















10.3.2 解决 方案 














缓存 高 速 查询 模式 的 中 心思 想 是 ， 通 过 可 以 高 速 查 询 的 数据 库 返 回 查 询 的 内 容 ， 并 且 对 查询 结果 进行 缓存 。 这 样 操作 以 后 ， 需 要 经 常 执行 的 查询 语句 所 对 应 的 结果 就 可 以 通过 缓存 直接 获得 了 。 这 样 的 
微服 务 结构 在 现今 机 器 学 习 相 关 领 域 已 经 得 到 了 非常 广泛 的 应 用 。 


























缓存 高 速 查询 设计 模式 的 系统 架构 主要 分 为 如 下 三 个 方面 ， 如 图 10-4 所 示 。 

















数据 请 求 端 查询 反馈 服务 











国 10-4 ”缓存 高 速 查询 设计 模式 架构 图 








1. 高 性 能 数据 库 








高 性 能 数据 库 是 缓存 高 速 查询 设计 模式 中 数据 存储 的 核心 ， 它 负责 通过 查询 的 方式 返回 所 需 的 数据 。 由 于 低 延 迟 的 要 求 ， 这 里 的 数据 库 往往 会 按照 性 能 进行 优化 。 例 如 对 于 MySQL 等 数据 库 ， 可 能 会 对 
的 查询 字段 进行 索引 ， 以 加 快 查询 速度 ; 有 的 架构 直接 采用 Cassandra 等 列 数据 库 ， 以 利用 其 在 高 吞吐 量 查询 情况 下 的 性 能 优势 。 









































我 








2. 键 值 缓存 数据 库 









































键 值 缓存 数据 库 用 于 存储 先前 进行 过 的 查询 及 查询 的 结果 。 在 实际 应 用 中 ， 键 值 缓存 数据 库 往往 是 Redis、Memcached 等 数据 库 ， 查 询 的 键 (key) 往往 是 查询 语句 的 哈 希 值 ， 而 对 应 的 数据 (value) 
则 是 查询 语句 的 结果 。 


3 .查询 反馈 服务 








查询 反馈 服务 是 整个 缓存 高 速 查询 模式 的 消息 交换 枢纽 。 查 询 反馈 服务 负责 从 数据 请 求 端的 请 求 中 提取 相关 信息 ， 构 建 查询 语句 ， 并 且 首先 试图 从 键 值 缓存 数据 库 中 读 取 缓 存 数据 。 如 果 读 取 成 功 ， 那 
么 对 应 的 返回 值 会 被 直接 返回 ; 如 果 读 取 失 败 ， 那 么 该 查询 将 用 于 从 高 性 能 数据 库 中 读 取 结果 。 从 高 性 能 数据 库 中 读 取 的 结果 将 会 返回 ， 同 时 缓存 在 键 值 缓存 数据 库 中 。 



























































值得 一 提 的 是 ， 在 实际 应 用 中 ， 查 询 往往 会 服从 长 尾 分 布 ， 或 称 8020 定 律 ， 即 总 体 中 20% 的 查询 占据 了 80% 的 访问 量 。 这 就 使 得 缓存 高 速 查询 设计 模式 变 得 万 为 有 用 ， 因 为 只 需要 一 小 部 分 缓存 ， 即 可 
满足 大 部 分 访问 流量 的 需求 。 另 外 ， 由 于 长 尾 分 布 ， 键 值 缓存 数据 库 往往 不 可 能 存储 所 有 查询 的 内 容 ， 这 就 需要 开发 人 员 对 存储 结果 的 缓存 进行 取舍 。Redis 等 数据 库 已 经 对 缓存 的 管理 策略 进行 了 自动 化 定 
义 ， 用 户 可 以 自由 选取 [1 。 

























































































另外 ， 一 些 比较 现代 化 的 数据 存储 工具 ， 如 Elasticsearch、 亚 马 逊 云 服务 (AWS) 的 专属 高 性 能 SQL 服务 Aurora， 在 设计 之 初 都 已 经 意识 到 了 缓存 结果 的 常见 性 和 重要 性 ， 所 以 其 系统 内 部 已 经 自 带 了 
对 结果 的 缓存 。 采 用 这 样 的 服务 ， 只 需要 对 缓存 方面 进行 少许 配置 即 可 。 






































10.3.3 ”适用 场景 



























































缓存 高 速 查询 设计 模式 可 以 说 是 本 章 介 绍 的 设计 模式 中 使 用 最 为 广泛 的 设计 模式 ， 它 已 经 广泛 应 用 于 各 类 在 线 服务 中 。 常 见 的 电 商 、 娱 乐 、 物 流 等 应 用 场景 中 都 可 以 看 到 它 的 身影 。 在 实时 机 器 学 习 的 
应 用 中 ， 常 用 的 场景 包括 如 下 两 个 方面 。 























1. 机 器 学 习 模型 因 变 量 存储 





























与 10.2 节 所 介绍 的 高 速 键 值 设 计 模式 类 似 ， 缓 存 高 速 查询 模式 也 可 以 应 用 于 机 器 学 习 模 型 的 因 变 量 存储 上 面 ， 通 过 缓存 高 速 查询 设计 模式 微服 务 得 到 的 数据 可 应 用 于 机 器 学 习 的 预测 等 工作 。 





















































2. 存 储 机 器 学 习 模型 结果 
与 此 同时 ， 机 器 学 习 预 测 或 分 类 的 工作 往往 也 可 以 看 作 是 一 个 查询 工作 。 可 以 通过 类 似 的 架构 ， 将 机 器 学 习 预 测 模型 的 结果 缓存 起 来 ， 用 于 快速 使 用 ， 而 机 器 学 习 模型 仅仅 在 预测 尚未 遇见 的 情形 时 才 





























会 得 到 使 用 。 这 样 可 以 大 大 降低 整个 机 器 学 习 预 测 架构 的 负担 ， 加 快 预测 速度 。 


[由 详 见 https://redis.io/topics/lru-cache。 


10.4 更 新 : 异步 数据 库 更 新 模式 


10.4.1 问题 场景 























在 实时 机 器 学 习 应 用 中 ， 我 们 往往 需要 对 所 用 的 数据 进行 更 新 。 这 些 数据 起 到 的 作用 可 能 是 多 种 多 样 的 ， 例 如 前 文 提 到 的 预先 处 理 好 的 推荐 系统 数据 ， 会 以 键 值 数据 的 形式 存储 在 高 速 键 值 数据 库 中 ， 
当 根 据 新 数据 完成 训练 之 后 ， 可 能 还 需要 对 高 速 键 值 数据 库 中 的 数据 进行 更 新 。 

































































又 如 ， 我 们 的 分 类 模型 需要 用 到 一 些 用 户 
数据 之 后 ， 也 需要 对 先前 的 数据 进行 更 新 。 








面 的 数据 ， 例 如 最 近 一 个 月 消费 总 额 可 能 随时 间 变化 的 数据 等 ， 这 些 数据 可 能 通过 前 文 提 到 的 高 速 键 值 模式 或 缓存 高 速 查询 模式 呈现 给 用 户 。 当 获得 了 新 鲜 

















与 此 同时 ， 还 可 以 预计 到 ， 为 了 满足 高 通 量 读 写 的 功能 ， 前 端 可 能 会 同时 部 署 多 个 只 读数 据 库 ， 存 储 完全 相同 的 只 读 版 本 的 数据 。 这 个 时 候 也 就 要 求 我 们 对 多 个 只 读 的 数据 库 进行 更 新 。 


10.4.2 ”解决 方案 


























回顾 数据 库 介绍 章节 (第 8 章 ) 的 内 容 ， 我 们 可 以 意识 到 ， 实 际 应 用 中 ， 需 要 更 新 的 数据 往往 会 用 来 作为 机 器 学 习 模 型 中 的 参数 ， 用 户 对 它们 的 一 致 性 要 求 并 不 是 特别 严格 。 例 如 我 们 需要 更 新 推荐 系统 
的 内 容 ， 但 是 早 或 晚 更 新 几 秒 钟 ， 可 能 并 不 会 对 用 户 的 体验 带 来 灾难 性 的 影响 。 






























































异步 数据 库 更 新 的 关键 就 在 于 利用 上 述 对 数据 一 致 性 要 求 较 弱 的 特点 ， 对 数据 进行 异步 更 新 。 异 步 数据 库 更 新 设计 模式 的 主要 成 员 如 图 10-5 所 示 ， 其 中 包括 如 下 几 个 组 成 部 分 。 























:后 端 数据 更 新 服务 : 后 端 数据 更 新 服务 负责 产生 更 新 之 后 的 数据 ， 并 且 将 其 存储 在 主 数据 库 中 。 


“ 主 数 据 库 : 在 生产 环境 中 为 机 器 学 习 提供 服务 的 数据 库 往往 都 会 以 主 - 从 数据 库 的 形式 存在 。 主 数据 库 负责 接受 数据 写 入 ， 再 通过 数据 库 自身 的 底层 通信 复制 手段 ， 将 数据 复制 到 从 数据 库 中 。 从 数据 
库 往 往 只 负责 读 取 ， 是 只 读数 据 库 。Redis、MySQL 都 具有 这 样 的 复制 功能 。 


“ 从 数据 库 : 从 数据 库 负 责 对 使 用 数据 的 服务 进行 响应 ， 从 数据 库 的 内 容 全 部 来 自 于 主 数 据 库 。 


使 用 数据 的 服务 1 


使 用 数据 的 服务 2 后 端 数据 更 新 服务 


使 用 数据 的 服务 3 











图 10-5 ”异步 数据 库 更 新 模式 

















值得 注意 的 是 ， 主 -从 数据 库 之 间 的 同步 更 新 可 能 会 利用 数据 库 内 部 自 带 的 更 新 机 制 ， 也 有 可 能 依赖 于 数据 库 外 部 专门 为 之 搭建 的 服务 ， 例 如 AWS Data Pipeline 等 。 











10.4.3 ”使 用 场景 案例 








异步 数据 库 更 新 设计 模式 是 在 机 器 学 习 领 域 应 用 非常 广泛 的 设计 模式 之 一 ， 下 面 给 出 了 一 些 例子 。 








1. 推 荐 系统 内 容 更 新 




















在 推荐 系统 的 应 用 中 ， 对 于 某 些 常见 的 联合 过 滤 等 情形 ， 我 们 往往 会 在 线 下 准备 好 与 每 个 用 户 、 物 件 相关 的 推荐 内 容 ， 如 : 











长 
用 户 名 : " 张 三 "， 
推荐 物品 : [ 


{ 
物品 ID:123， 
得 分 : 1.23 
] 


物品 ID:234， 
得 分 : 0.89 
}， 


物品 ID:321， 
得 分 : 0.23 
} 
] 
} 
































上 面 的 数据 往往 会 存储 在 数据 库 中 ， 如 Redis、PostgreSQL 等 ， 以 供 快速 查阅 。 同 时 ， 上 面 的 物品 ID 和 权重 可 能 会 随 着 时 间 和 用 户 习 惯 的 更 新 而 改变 。 这 里 我 们 可 能 需要 对 这 两 项 数据 进行 连续 更 新 。 
更 新 的 时 候 往往 会 更 新 主 数据 库 ， 然 后 使 用 只 读 备份 的 方法 让 读数 据 库 也 具有 上 面 的 内 容 。 























2. 机 器 学 习 参 数 更 新 
































在 机 器 学 习 模 型 中 ， 我 们 往往 需要 在 数据 库 中 存储 与 用 户 、 事 件 有 关 的 参数 。 例 如 ， 在 对 用 户 的 购买 概率 进行 预测 的 场景 下 ， 我 们 往往 需要 对 每 个 用 户 产 生 用 户 画 像 。 用 户 画 像 的 形式 可 以 是 多 种 多 样 
的 ， 下 面 是 一 个 用 户 画像 的 例子 : 






























































用 户 ID: 123， 
常见 地 理 位 置 : [{ 
权重 :0.7， 
坐标 : { 
经 度 : 36.12123， 
纬度 : 128.14457 








度 : 18.12454， 
级 : 20.87564 























可 以 注意 到 ， 上 面 的 用 户 画像 数据 往往 会 随时 间 而 改变 。 上 面 的 数据 也 常常 会 存储 在 Cassandra 等 NoSQL 数 据 库 中 ， 对 其 进行 更 新 可 以 遵循 异步 数据 库 更 新 模式 。 








10.5 更新: 请求 重 定向 模式 


10.5.1 ”问题 场景 





























10.4 节 介绍 的 数据 库 异 步 更 新 模式 ， 假 设 了 先后 使 用 的 数据 都 存储 于 相同 类 型 的 数据 库 中 ， 只 是 具体 的 数值 发 生 了 改变 。 如 果 我 们 需要 对 模型 、 算 法 逻辑 ， 甚 至 是 整个 功能 模块 进行 更 新 ， 又 该 用 什么 
































样 的 模式 呢 ? 





























例如 ， 在 物流 的 使 用 场景 中 ， 我 们 往往 需要 对 投递 成 功率 进行 预 估 ， 该 预 估 的 模型 可 能 会 经 过 多 次 改进 ， 初 期 版 本 可 能 只 与 传统 的 MYSQL 数据 库 相连 ， 而 后 期 版 本 则 会 与 Elasticsearch、Redis 等 多 个 


服务 进行 对 接 。 


10.5.2 ”解决 方案 











请 求 重 定向 模式 就 能 解决 这 样 的 问题 。 顾 名 思 义 ， 在 请 求 重 定向 模式 中 ， 我 们 会 采用 重 定向 的 方法 ， 将 访问 流量 直接 转换 到 更 新 后 的 服务 中 ， 而 不 会 对 原 有 服务 进行 改变 。 




















请 求 重 定向 模式 包括 如 下 几 个 组 成 部 分 ， 如 图 10-6 所 示 。 





“ 原始 服务 : 原始 服务 是 已 经 存在 的 机 器 学 习 服务 ， 它 可 在 生产 环境 中 稳定 运行 。 原 始 服务 可 能 是 RESTful API 的 一 个 终点 ， 也 可 能 是 一 个 机 器 学 习 服务 处 理 队列 ， 如 RabbitMQ 队 列 、 亚 马 进 云 服务 
Kinesis 队 列 等 。 它 通过 重 定向 交换 中 心 和 数据 使 用 端 相连 。 


“ 重 定向 交换 中 心 : 重 定向 交换 中 心 是 请 求 重 定向 设计 模式 的 关键 。 它 负责 遵循 命令 将 机 器 学 习 处 理 任务 指向 到 特定 的 处 理 后 端 中 。 重 定向 交换 中 心 可 能 是 一 个 RESTful API 服 务 ， 也 可 能 是 一 个 
RabbitMQ 消 息 交 换 中 心 ， 甚 至 还 可 能 是 亚马逊 云 服 务 的 Simple Notication Service (SNS) 。 


: 新 服务 : 新 服务 后 端 是 需要 取代 原始 服务 后 端的 组 成 架构 ， 它 往往 具有 和 原始 服务 兼容 的 接口 ， 以 满足 服务 的 延续 性 运行 。 


预测 服务 1 






预测 服务 2 Elasticsearch 








10-6 请 求 重 定向 模式 示例 结构 



































值得 一 提 的 是 ， 不 少 比较 现代 的 服务 架构 也 意识 到 了 请 求 重 定向 模式 的 重要 性 。 它 们 在 自身 服务 中 也 采用 了 重 定向 服务 。 例 如 ，Elasticsearch 已 经 有 了 多 年 使 用 重 定向 服务 的 经 验 。Elasticsearch 在 使 







































































的 时 候 可 以 设置 定向 名 ， 外 部 服务 通过 定向 名 进行 访问 ， 而 内 部 服务 会 将 访问 重 定向 到 所 需 的 后 端 索引 中 去 ， 这 样 的 更 新 模式 也 是 请 求 重 定向 的 模式 。 以 图 10-7 为 例 ， 我 们 可 以 在 Elasticsearch 中 设置 
定向 名 place， 外 部 服务 始终 按照 该 名 称 对 数据 进行 访问 ， 而 不 同 版 本 的 索引 则 是 通过 重 定向 服务 进行 交换 。 


























数据 使 用 妆 /place——> 











10-7 ”Elasticsearch 中 重 定向 模式 示例 结构 


























时 


请 求 重 定 向 模式 由 于 其 结构 的 复杂 性 ， 在 实际 应 用 中 得 到 了 非常 广泛 的 应 用 。 可 是 非常 遗憾 的 是 ， 人 们 在 设计 系统 之 初 往往 会 忘记 对 特定 的 环节 设置 重 定向 服务 ， 这 也 导致 在 后 期 模型 更 新 的 时 候 会 遇 
到 不 少 麻烦 ， 如 果 能 够 提早 做 好 计划 ， 那 么 后 期 遇 到 的 问题 就 会 少 得 多 。 建 议 读者 在 设计 系统 架构 之 初 就 对 所 有 可 能 进行 更 换 的 系统 架构 都 做 好 预 判 ， 加 入 重 定向 服务 节点 ， 这 会 为 后 面 的 工作 减轻 不 少 负 


























担 。 


10.5.3 ”更 新 流程 




















请 求 


由 





定向 模式 由 于 其 结构 的 复杂 性 ， 在 使 用 上 也 需要 经 过 较 多 步骤 ， 具 体 如 下 。 














1) 部 署 新 服务 后 端 。 在 部 署 开 始 之 初 ， 我 们 需要 首先 部 署 新 的 服务 后 端 ， 并 且 对 其 进行 测试 。 这 个 时 候 旧 服务 后 端 仍 在 运行 ， 并 且 仍 在 处 理 数据 。 





2) 更 新 重 定向 交换 中 心 ， 将 请 求 指向 到 新 服务 后 端 。 这 个 时 候 新 旧 两 个 后 端 都 在 运行 ， 但 是 更 新 之 后 新 后 端 将 开始 处 理 数据 。 





3) 监测 新 后 端的 运行 情况 。 此 时 我 们 往往 不 会 立即 关闭 旧 后 端 ， 会 让 其 继续 运行 以 备 不 时 之 需 。 与 此 同时 ， 我 们 会 对 新 后 端的 各 项 指标 进行 监控 。 





4) 完成 改动 。 如 果 各 项 指标 都 能 达到 满意 效果 ， 关 闭 旧 后 端 ， 改 动 完成 ; 如 果 系统 运行 出 现 问题 ， 或 者 新 后 端 运行 效果 不 如 旧 后 端 ， 那 么 可 以 将 重 定向 交换 中 心 指 回 旧 后 端 ， 对 新 后 端 进行 排 错 修改 。 
值得 一 提 的 是 ， 对 于 一 些 系统 ， 我 们 往往 不 会 立即 将 所 有 流量 完全 转向 新 后 端 ， 而 是 在 重 定向 交换 中 心 加 入 AB 检 验 中 随机 分 配 流量 的 功能 ， 通 过 监测 关键 数据 的 优 劣 进行 流量 的 分 配 。 另 外 ， 在 某 些 系统 
中 ， 从 业 人 员 会 逐渐 在 重 定向 交换 中 心 加 大 新 后 端的 使 用 比例 。 
































10.5.4 ”使 用 场景 案例 














重 定向 模式 可 以 说 是 机 器 学 习 实 战 中 使 用 最 为 广泛 的 一 项 设计 模式 ， 在 众多 系统 中 都 可 以 找到 它 的 身影 。 下 面 给 出 两 个 例子 。 








1. 广 告 后 端 系 统 更 新 











某 工业 界 领 先 的 公司 中 ， 具 有 非常 陈旧 的 广告 后 端 系统 ， 其 代码 老化 ， 较 难 支持 新 业务 ， 而 且 开 发 人 员 早 已 离职 。 为 了 对 这 样 的 老 旧 系统 进行 更 新 换代 ， 开 发 进行 的 第 一 步 往往 就 是 在 系统 请 求 中 加 入 
请 求 重 定向 交换 中 心 这 一 元 素 ， 以 方便 对 请 求 进行 调节 。 


























在 实际 使 用 中 ， 请 求 重 定向 交换 中 心 可 以 对 流量 进行 随机 分 割 ， 逐 步 加 大 对 新 系统 的 依赖 程度 。 在 正式 开始 分 配 流量 之 初 ， 请 求 重 定向 交换 中 心 会 将 正式 请 求 发 送 给 旧 系 统 进 行 处 理 ， 与 此 同时 ， 也 将 
同样 的 流量 发 送 给 新 系统 ， 但 是 只 将 旧 系统 的 结果 反馈 给 用 户 。 这 样 也 有 利于 开发 人 员 对 新 系统 进行 排 错 ， 而 不 会 因为 没有 预想 到 的 问题 陷入 骨 溃 。 


























2 .同城 物流 公司 后 端 更 新 














某 同城 物流 公司 也 采用 了 请 求 重 定向 的 方法 对 机 器 学 习 后 端 进行 更 新 。 物 流 和 在 线 电 商 等 业务 有 所 不 同 ， 不 管 怎么 随机 分 割 流 量 ， 最 后 因为 消费 者 行为 产生 的 变化 都 会 对 物流 整体 产生 影响 ， 而 无 法 独 


立 衡量 。 











该 同城 物流 公司 最 开始 采取 的 是 “一 刀 切 ”的 更 新 方法 。 这 使 得 下 游 物 流 人 员 发 现 需要 配送 的 任务 突然 全 部 改变 ， 从 而 陷入 不 知 所 措 的 境地 。 这 也 导致 该 公司 不 得 不 放弃 新 系统 的 更 新 ， 而 回 到 原 有 的 
老 旧 系统 ， 错 过 巨大 的 商业 机 会 。 对 于 这 样 的 情况 ， 更 好 的 方法 是 ， 逐 步 增加 新 模型 所 需要 处 理 的 任务 数量 ， 并 且 逐 步 观 测 其 带 来 的 影响 。 当 然 ， 这 样 的 过 程 是 非常 耗费 精力 的 ， 需 要 从 业 人 员 付出 极 大 的 
耐心 。 


























10.6 处理 : 硬 实时 并 行 模式 


10.6.1 问题 场景 











在 实时 机 器 学 习 的 应 用 中 ， 我 们 往往 需要 在 短 时 间 (如 若干 微 秒 ) 内 对 请 求 做 出 反馈 。 这 些 反馈 通常 随机 地 到 达 实 时 机 器 学 习 服 务 ， 在 短 时 间 内 可 能 同时 会 有 多 个 请 求 到 达 。 这 样 的 需求 存在 于 众多 面 
向 大 量 用 户 的 互联 网 应 用 中 ， 如 电 商 推荐 、 物 流 预 测 等 。 



































硬 实时 并 行 模式 系统 结构 如 图 10-8 所 示 。 
































细 细 说 来 ， 硬 实时 并 行 模式 的 使 用 场景 其 实 包含 了 如 下 两 个 方面 的 要 求 : 








:能够 处 理 高 并 发 请 求 。 高 并 发 (high concurrency) 代表 着 可 能 同时 需要 处 理 大量 任 务 ， 这 就 要 求 处 理 系统 能 够 横向 扩展 ， 系 统 的 计算 、 存 储 和 网 络 负担 最 多 只 随 请 求 数量 线性 增长 。 


“ 在 高 并 发 的 情况 下 仍然 能 保证 低 延 迟 。 这 也 是 完成 业务 需求 的 基本 需要 。 


机 天 学 习 处 理 


前 六 1 


机 大 学 习 处 理 


前 并 2 


机 融 学 习 处 理 


前 端 n 














10-8 硬 实时 并 发 模式 系统 架构 使 用 场景 





10.6.2 ”解决 方案 




















硬 实时 并 行 模式 在 高 并 发 、 低 延迟 的 场景 中 得 到 了 广泛 应 用 。 在 前 面 的 系统 架构 章节 (第 5 章 ) ， 我 们 已 经 对 硬 实 时 并 行 模式 进行 了 简单 介绍 。 具 体 说 来 ， 硬 实时 并 行 模式 包含 以 下 几 个 元 素 。 














“ 负载 均衡 。 它 负责 将 请 求 按照 配置 分 发 到 不 同 的 机 器 学 习 处 理 前 端 中 去 。 


“ 机 器 学 习 处 理 前 端 。 它 往往 由 多 台 具 有 相同 程序 部 署 的 服务 器 构成 ， 它 们 大 都 具有 无 状态 性 ， 以 保证 机 器 学 习 反 馈 的 一 致 性 。 注 意 机 器 学 习 处 理 前 端 可 能 是 单个 服务 ， 也 可 能 是 由 多 个 微服 务 构成 的 
树 状 微 服务 集群 。 


“ 后 端 数 据 服务 。 其 为 机 器 学 习 前 端 提供 数据 支撑 ， 是 该 设计 模式 中 可 选 但 是 一 般 都 存在 的 模块 。 后 端 数 据 服务 可 能 是 数据 库 ， 也 可 能 是 以 前 面 介绍 过 的 更 复杂 的 数据 服务 形态 存在 。 














和 面 介 绍 过 的 异步 数据 库 更 新 模式 或 重 定向 模式 进行 更 新 。 后 面 的 小 节 将 会 介绍 需要 对 数据 库 进行 写 操作 的 设计 














值得 注意 的 是 ， 在 硬 实时 并 行 的 模式 中 ， 后 端 数据 服务 往往 是 以 只 读 模式 存在 的 ， 利 用 育 
模式 。 





























另外 ， 不 是 所 有 数据 库 的 读 写 方式 都 能 满足 低 延迟 的 要 求 。 前 面 几 节 介绍 过 的 高 速 键 值 模 式 和 缓存 高 速 查询 模式 往往 会 在 硬 实时 并 行 模式 中 得 到 广泛 应 用 。 如 果 情 况 特殊 非 要 实时 进行 数据 库 查 询 ， 那 
么 其 也 会 将 查询 对 应 的 列 进行 索引 化 处 理 ， 以 加 快 查询 速度 。 











10.6.3 ”使 用 场景 案例 




















了 反馈 的 场景 ， 几 乎 都 能 看 到 硬 实时 并 行 模式 的 身影 ， 下 面 是 几 个 示例 。 





=、 








硬 实时 并 行 模式 存在 于 现今 几乎 所 有 的 网 页 和 移动 场景 中 ， 对 于 需要 及 时 对 用 户 进 


1 在线 广告 实时 点 击 预 估 




















硬 实时 并 行 模式 是 在 线 广告 业 进行 点 击 预 估 所 采用 的 最 常见 的 架构 。 在 在 线 广告 业务 中 ， 数 据 请 求 端 往往 是 广告 投放 前 端 集群 ， 点 击 预 估 集 群 负责 对 消费 者 在 特定 网 页 、 特 定 广告 组 合 下 点 击 的 概率 进 
行 估计 ， 而 后 端 数据 库 内 容 往往 需要 整合 自 有 和 公用 两 大 数据 来 源 。 
































在 线 广告 业务 取得 超额 利润 的 关键 在 于 低 延 迟 和 精确 点 击 预 估 。 为 了 取得 低 延迟 ， 从 业 人 员 往 往 会 采用 专 有 的 负载 均衡 模式 ， 而 不 是 HTTP 负 载 均衡 模块 ， 以 减少 网 络 过 程 中 数据 转换 带 来 的 延迟 。 与 此 
同时 ， 为 了 提高 点 击 预 估 的 精确 度 ， 从 业 人 员 往 往 会 购买 外 生 数 据 ， 以 提高 用 户 画像 的 精确 度 。 这 个 时 候 后 端 数据 库 往往 会 以 NoSQL 数 据 库 的 形式 存在 。 


























2 智能 语音 服务 器 端 








现今 应 用 越 来 越 普遍 的 人 工 智能 语音 服务 (如 Siri 等 ) ， 也 会 用 到 硬 实时 并 行 模式 的 前 端 。 从 每 个 用 户 的 手机 、 平 板 等 终端 设备 上 ， 语 音 命令 在 进行 初步 预 处 理 和 压缩 之 后 会 传输 到 服务 器 端 。 服 务 器 端 
会 按照 语意 内 容 对 输入 进行 反馈 ， 反 馈 内 容 包 括 天 气 、 交 通 情况 ， 也 可 能 包括 电影 、 网 页 搜索 结果 等 。 其 中 每 个 反馈 的 终端 可 能 也 是 一 个 独立 的 微服 务 ， 具 有 自身 的 后 端 数据 服务 ， 如 图 10-9 所 示 。 



































注意 这 里 各 个 微服 务 所 对 应 的 数据 库 都 不 相同 。 这 样 的 架构 由 于 其 微服 务 之 间 的 独立 性 ， 可 以 方便 不 同 的 开发 人 员 在 相同 的 业务 领域 对 不 同 的 微服 务 进行 独立 开发 。 
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图 10-9 ”实时 语音 服务 架构 


10.7 处理: 分 布 式 任务 队列 模式 


10.7.1 ”问题 场景 












































在 实时 机 器 学 习 应 用 的 若干 场景 中 ， 我 们 需要 对 数据 进行 多 步骤 处 理 ， 每 个 步骤 由 于 其 具有 独特 的 功能 ， 可 能 需要 与 不 同 的 服务 所 交接 ， 而 且 生成 的 数据 可 能 被 下 游 不 同 的 功能 模块 所 应 用 。 












































例如 ， 对 于 实时 作 头 监测 这 样 的 应 用 场景 ， 我 们 需要 对 各 个 等 待 判断 的 事件 抽取 响应 的 特征 数据 ， 这 样 的 特征 数据 可 能 存储 于 不 同 的 数据 库 中 。 比 如 IP 地 址 相关 信息 存储 于 Elasticsearch 集 群 中 ， 用 户 
历史 相关 信息 存储 于 Cassandra 数 据 库 中 ， 最 后 的 模型 通过 Scikit-learn 实 现 。 这 个 时 候 如 果 通 过 单一 的 程序 来 实现 整个 处 理 流程 ， 那 么 会 很 容易 产生 意大利 通 心 面 代 码 (Spaghetti Code， 或 者 称 为 难看 而 
且 无 法 维护 的 代码 ) 。 









































10.7.2 ”解决 方案 





对 于 上 述 挑战 ， 分 布 式 任务 队列 模式 往往 能 够 大 显 身手 。 分 布 式 队列 模式 ， 其 代表 了 下 面 的 设计 模式 。 

















将 机 器 学 习 任务 划分 成 有 向 无 环 图 (Directed Acyclic Graph，DAG) ， 一 个 有 向 无 环 图 上 面 的 每 个 节点 均 代表 一 个 处 理 功能 模块 ， 各 个 功能 模块 相对 独立 地 以 瀑布 流 一 样 的 方式 完成 机 器 学 习 任 务 。 


























注意 这 里 用 到 了 “分 布 式 ” 这 样 的 字眼 ， 但 是 这 并 不 代表 这 样 的 设计 模式 一 定 需要 分 布 式 集群 。 分 布 式 在 这 里 代表 机 器 学 习 任务 被 划分 成 为 了 不 同 的 功能 模块 ， 一 个 处 理 任务 分 布 在 不 同 的 功能 模块 上 进行 
运算 ， 但 是 运算 仍然 可 能 是 在 单机 上 完成 的 。 


























分 布 式 任务 队列 模式 的 应 用 场景 主要 包含 以 下 两 个 特点 。 











“ 多 个 组 件 进行 复杂 分 工 : 采用 分 布 式 任务 队列 的 机 器 学 习 任务 往往 具有 较为 复杂 的 功能 模块 ， 整 个 数据 的 处 理 过 程 是 瀑布 流 式 的 有 向 无 环 











“ 对 延迟 有 要 求 ， 但 是 并 不 严格 : 实战 中 实现 的 分 布 式 任务 队列 往往 力求 尽量 快速 地 完成 数据 处 理 任务 ， 但 是 由 于 整个 处 理 过 程 太 过 复杂 ， 一 般 很 难保 证 整个 处 理 流 程 的 耗 时 。 从 业 人 员 转 而 对 其 中 每 
个 处 理 单元 的 耗 时 进行 测量 ， 以 期 从 底层 出 发 控制 整体 质量 。 





分 布 式 任务 队列 模式 由 下 面 几 个 部 分 组 成 ， 架 构 如 图 10-10 所 示 。 











“ 任务 源 。 这 是 机 器 学 习 任务 的 发 出 方 ， 分 布 式 任务 队列 模式 中 响应 模块 的 工作 都 由 任务 源 发 出 的 指令 所 触发 。 











:处理 单元 。 这 是 分 布 式 任务 队列 中 的 基本 计算 单元 。 除 了 上 下 游 直接 在 任务 流向 图 中 相 接 的 处 理 单元 之 外 ， 各 个 处 理 单元 都 相对 比较 独立 ， 几 乎 不 会 相互 影响 ， 故 而 可 能 在 分 布 式 集群 上 独立 运行 。 











“ 处 理 流向 图 。 即 整合 任务 上 下 游 和 处 理 单元 的 有 向 无 环 图 ， 处 理 流向 图 把 所 有 组 成 部 分 联系 在 一 起 。 它 本 身 并 不 直接 参与 机 器 学 习 的 计算 ， 只 起 到 主心骨 的 功能 。 
































值得 注意 的 是 ， 整 个 分 布 式 任务 队列 模式 处 理 过程 中 ， 不 同 处 理 单元 的 处 理 速 度 往往 是 不 同 的， 这 就 会 造成 类 似 于 现实 世界 中 塞车 的 情况 。 所 以 其 实在 具体 架构 中 ， 会 在 每 个 处 理 单元 上 前 置 一 个 队 
这 也 是 “分 布 式 任务 队列 ”模式 中 “队列 ”二 字 的 来 源 。 
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图 10-10 ”分 布 式 任务 队列 模式 


10.7.3 Storm 作 为 分 布 式 任务 队列 





Apache Storm 可 以 说 是 最 经 典 、 最 正统 的 分 布 式 任务 队列 解决 方案 了 。 由 于 其 集群 配置 涉及 Zookeeper 等 多 方面 设置 ， 对 于 入 门 读者 来 说 比较 难以 掌握 ， 需 要 多 个 章节 进行 专门 介绍 ， 所 以 本 书 不 过 
多 讲述 ， 建 议 有 需要 的 读者 寻找 专著 进行 阅读 和 学 习 。 这 里 只 对 Storm 的 基本 构成 进行 非常 粗略 的 介绍 。 








本 书 前 面 已 经 提 到 过 ，Apache Storm 是 由 LinkedIn 开 源 并 推动 的 ， 后 来 由 于 其 功能 完善 而 在 工业 界 得 到 了 非常 广泛 的 应 用 。Storm 是 一 个 非常 优秀 的 分 布 式 任务 队列 计算 平台 。 总 的 来 说 ,一 个 Storm 
计算 集群 的 逻辑 部 分 可 以 分 为 如 下 几 个 部 分 。 














“ 数据 发 出 节点 (Spout) 。 数 据 发 出 节点 的 任务 是 和 外 部 进行 通信 ， 并 产生 数据 ， 是 整个 运行 拓扑 图 结构 的 开始 点 。 数 据 发 出 节点 常用 的 例子 包括 : 和 Twitter 等 网 络 数据 相连 ， 实 时 读 取 网 络 与 情 信 
息 ; 它 和 RabbitMQ、Kafka 等 任务 队列 相连 ， 以 读 取 任 务 队 列 中 的 数据 。 


“ 数据 处 理 节 点 (Bolt) 。 该 节点 负责 数据 的 加 工 和 任务 的 处 理 。 数 据 处 理 节点 的 上 游 可 能 是 数据 发 出 节点 ， 也 可 能 是 其 他 数据 处 理 节点 。 它 进行 的 工作 可 能 是 对 流 式 数据 进行 加 工 、 加 总 或 分 折 、 存 





: 运行 拓扑 图 〈Topology) 。 该 图 会 综合 整个 流 式 处 理工 作 中 的 所 有 成 员 ， 定 义 其 相关 关系 的 部 分 。 运 行 拓扑 图 的 结构 是 一 个 有 向 无 环 图 ， 图 的 发 出 节点 都 是 数据 的 发 出 节点 〈Spout) ， 图 的 非 发 出 节 
点 都 是 数据 处 理 节点 〈Bolt) ， 图 中 每 个 节点 都 由 有 向 边 相 连 ， 代 表 数 据 的 流向 。 


























图 10-11 代 表 了 一 个 示例 的 storm 运行 环境 。 











Storm 运行 环境 


运行 拓扑 图 1 , 
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图 10-11 Storm 运行 环境 示例 图 


该 环境 可 以 分 为 下 面 几 个 部 分 来 解读 。 





“ 一 个 Storm 集 群 往往 对 应 于 一 个 逻辑 上 的 Storm 运 行 环境 ， 而 每 个 运行 环境 中 都 可 以 包含 多 个 运行 拓扑 图 。 该 示例 运行 环境 中 包含 了 两 个 。 














“ 每 个 运行 拓扑 图 中 都 具有 数据 发 出 节点 〈(Spout) 和 数据 处 理 节点 〈Bolt) ， 拓 扑 图 的 结构 可 以 各 式 各 样 ， 但 是 归根 结 底 必 须 是 有 向 无 环 图 。 











10.7.4 适用 场景 








分 布 式 任务 队列 模式 特别 适合 于 具有 如 下 特色 的 应 用 场景 : 首先 ， 任 务 需要 被 实时 处 理 ， 但 是 对 延迟 要 求 并 不 严格 ; 其 次 ， 可 能 需要 和 多 个 外 部 数据 库 、 微 服务 进行 交互 。 下 面 是 一 个 例子 。 








经 常 在 网 上 订 机 票 的 读者 可 能 会 注意 到 ， 在 Expedia 等 网 站 上 支付 机 票 费用 之 后 ， 往 往 会 有 一 段 时 间 ， 该 订单 的 状态 显示 为 “正在 处 理 ”， 一 两 分 钟 之 后 才 会 变 为 “已 经 确认 ”。 这 一 两 分 钟 之 内 发 生 
了 什么 呢 ? 











这 段 时 间 中 票务 网 站 其 实 要 在 后 台 进行 多 项 操作 : 通过 航空 公司 的 接口 验证 是 否 有 空余 座位 ， 通 过 信用 卡 公司 提供 的 接口 实现 预付 款 ， 通 过 航空 公司 的 接口 完成 预订 等 ， 在 此 之 间 可 能 还 需要 利用 机 器 
学 习 模 型 对 订单 进行 真 伪 预 判 ， 增 值 服务 推荐 等 工作 。 




















上 述 工作 往往 需要 多 个 微服 务 协 同 作业 才能 完成 ， 其 中 信用 卡 、 航 


10.7.5 ”结构 的 演进 


笔者 在 工业 界 经 过 多 年 的 摸 肥 滚 打 和 观察 惊奇 地 发 现 ， 从 业 人 员 在 构建 架构 初期 往往 不 会 意识 到 采 





例如 ， 在 一 个 在 线 票务 系统 设计 之 初 ， 往 往 只 有 简单 的 处 理 程序 ， 并 配 以 消息 队列 进行 缓冲 。 在 发 
分 布 式 任务 队列 ， 对 任务 流 进行 统一 管理 。 这 个 时 候 由 于 业务 的 复杂 化 ， 对 整体 架构 进行 重 构 往往 具有 很 大 的 




















识 到 需要 采 




















分 布 式 任务 队 刺 























的 重要 性 。 





难度 ， 迁 移 工作 也 会 变 得 














我 们 建议 大 家 在 设计 架构 之 初 就 尝试 想象 一 下 未 来 服务 架构 的 可 能 结构 ， 如 果 有 一 天 ， 业 务 需 求 会 变 成 多 个 有 向 无 环 图 


10.8 ”处 理 : 批 实时 处 理 模式 


10.8.1 问题 场景 























场景 中 ， 机 器 学 习 模型 所 需要 进行 使 
位 时 间 窗 [ 














在 金融 、 自 然 科学 等 领域 的 不 少 应 
交 量 进行 加 总 ;对 于 气象 预测 等 场景 ， 





























10.8.2 ”解决 方案 


为 了 解决 这 样 的 需求 ， 批 实时 处 理 模式 就 诞生 了 。 在 批 实时 处 理 模式 的 架构 中 ， 往 往 会 存在 一 个 分 布 式 存储 机 制 ， 对 一 定时 间 窗 口 





或 预测 的 数 
中 的 降雨 量 是 进行 预测 的 重要 指标 ， 对 于 社交 与 情 分 析 ， 从 业 人 员 需 要 对 一 定时 间 窗 口 














Ru 


是 在 批 实时 处 理 结果 的 输出 会 被 作为 其 他 机 器 学 习 模型 输入 的 情况 时 。 这 种 情况 往往 对 算法 的 鲁 棒 性 有 特别 强烈 的 要 求 。 























前 面 的 章节 (第 1 章 ) 中 已 经 提 过 ， 
乌 龙 指 等 情况 。 在 观测 窗口 中 极端 值 的 出 现 可 能 会 影响 计算 的 结果 ， 















































常见 的 批 实时 处 理 模式 架构 可 以 用 图 10-12 来 表示 。 在 服务 器 上 批 实时 处 理 模式 需要 对 数据 进行 有 状态 性 保存 ， 在 分 布 式 系统 中 往往 就 需要 对 当前 存储 的 数据 进行 备份 和 状态 监控 ， 常 
了 Zookeeper 机 制作 为 分 布 式 同步 的 关键 环节 。 



























































工具 ， 如 storm 的 Trident 工 具 包 ， 以 及 Spark Streaming 工 具 包 , 采 





批 实时 处 理 运行 环境 


批 实时 处 理 队列 


数据 源 








常用 的 时 间 窗 口 有 如 下 两 种 。 











X(t), X(t—1), X(t—3), X(t—3)... 


图 10-12” 批 实时 处 理 











' 滑动 窗口 (Sliding Window) : 滑动 窗口 所 包含 的 数据 可 随 着 时 间 和 新 数据 的 到 来 连续 滑动 ， 一 个 数据 可 能 在 多 个 相 邻 的 滑动 窗口 中 出 现 。 


“ 分 段 窗口 (Tumbling Window) : 

















涵盖 大 多 数 应 








以 上 两 个 窗口 类 型 基本 上 能 








10.8.3 ”适用 场景 








于 上 下 文 数据 非常 重要 的 时 刻 ， 下 面 就 来 给 出 一 些 例子 。 








批 实时 处 理 模式 往往 应 














1. 社 交 与 情 分 析 


电 商 、 游 戏 等 多 种 行业 往往 需要 对 社交 和 与 情 进行 连续 监控 和 分 析 。 微 信 、 


分 段 窗 口 可 对 时 间 按 照 固定 的 宽度 进行 分 段 ， 不 同 的 窗口 所 包含 的 数据 互 不 交叉 。 


微 博 、 推 特等 社交 熏 情 数据 往往 是 舆情 分 析 的 恒 





非常 困 





的 杂 糠 ， 那 么 在 系统 架设 之 初 就 最 好 直接 采 


届 大 多 是 基于 时 间 序列 汇总 数据 的 。 例 如 ， 对 于 数量 金融 等 场景 ， 
中 的 关键 词 进行 汇总 分 析 。 


的 数据 进行 保留 和 加 工 ， 并 


空 公司 交互 等 工作 由 于 其 外 生性 ， 在 服务 可 靠 度 、 延 迟 等 方面 不 可 能 严格 要 求 。 这 个 时 候 分 布 式 任务 队列 模式 就 得 到 了 广泛 的 应 用 。 


展 中 期 ， 系 统 架 构 往往 会 编程 多 个 微服 务 和 分 布 式 队列 的 杂 糠 。 只 有 到 了 发 展 后 期 开发 人 员 ， 


难 。 





























棒 性 是 指 算法 在 遇 到 极端 值 的 情况 下 ， 产 生 的 结果 、 判 断 不 会 特别 离谱 。 在 时 间 序 列 数据 的 处 理 过 程 中 ， 难 免 会 出 现 观测 误差 、 数 据 曼 
具有 优良 鲁 棒 性 的 机 器 学 习 方 法 可 以 减少 极端 观测 数值 的 影响 。 

















a 
会 意 


分 布 式 任务 队列 进行 架构 。 


从 业 人 员 往 往 需要 对 一 定时 间 窗 口中 出 现 的 成 





于 机 器 学 习 处 理 。 


前 面 介绍 过 的 硬 实时 并 行 模式 和 分 布 式 任务 队列 模式 对 具体 算法 并 没有 特定 的 要 求 ， 进 行 计算 的 服务 器 状态 基本 上 也 不 会 随 计算 结果 而 改变 。 批 实时 处 理 模式 对 于 算法 和 状态 的 要 求 却 要 强 得 多 ， 特 别 





天 笋 极端 值 ， 或 者 操作 人 员 














的 批 实 时 处 理 








F 游 使 用 程序 


要 数据 来 源 。 社 交 与 情 分 析 的 方法 一 般 包含 以 下 两 种 。 


:网络 分 析 。 按 照 社交 网 络 结构 、 信 息 传 播 的 途径 进行 加 总 和 最 根 溯 源 ， 按 照 信 息 发 生 的 源头 总 结 出 当前 的 热点 。 这 样 的 方法 往往 适用 于 微 博 等 场景 ， 适 合 对 单个 发 生 点 〈 如 大 V) 推动 的 内 容 进行 研 


:语义 分 析 。 利 用 机 器 学 习 的 方法 对 单个 与 情 片段 进行 语义 分 析 个 体 识别 ， 并 按照 时 间 序 列 和 空间 分 布 进行 加 总 。 


这 样 的 方法 往往 适用 于 单个 个 体 可 能 独立 发 出 的 事件 ， 例 如 影评 等 场景 。 


























实际 应 用 中 ， 语 义 分 析 的 应 用 方面 往往 会 使 用 到 批 实时 处 理 模 式 ， 对 熏 情 进行 连续 监控 。 





2. 金 融 数据 分 析 









































实时 股票 交易 场景 中 ， 从 业 人 员 已 经 根据 多 年 的 经 验 总 结 出 了 MACD 等 时 间 序 列 动量 指标 ， 这 些 指标 需要 对 一 定时 间 窗 口内 的 数据 进行 批量 处 理 。 笔 者 也 曾经 利用 深度 学 习 神 经 网 络 对 高 频 金融 数据 进 
行 研究 ， 发 现 经 过 长 时 间 训练 卷 积 层 (Convolution Layer) 的 权重 形态 竟然 极其 类 似 于 滑动 平均 指标 。 这 些 时 间 序 列 统计 量 都 成 为 了 重要 的 机 器 学 习 预 测 信 号 。 为 此 ， 批 实时 处 理 模 式 也 成 为 了 实时 金融 数 
据 预测 场景 中 非常 关键 的 架构 形态 。 
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11.1 Serverless 架 构 的 前 世 今生 











看 到 这 个 章节 的 时 候 ， 大 家 大 概 都 意识 到 了 架构 在 机 器 学 习 应 用 中 的 重要 性 。 提 到 架构 ， 不 得 不 提 一 下 最 近 两 年 出 现 的 Serverless 概 念 ， 它 是 一 个 非常 新 颖 的 方向 ， 笔 者 认为 Serverless 架 构 在 未 来 机 器 
学 习 应 用 中 拥有 巨大 的 潜力 ， 但 是 从 目前 的 发 展 进度 来 看 ， 趋 势 还 不 是 特别 明朗 ， 所 以 在 此 想 向 读者 进行 简单 的 介绍 。 






































本 书 主要 介绍 的 架构 设计 仍然 是 按照 Lambda 架 构 的 形态 进行 设计 的 ， 如 前 面 章节 (第 5 章 ) 中 的 介绍 ，Lambda 架 构 包 含 实时 层 、 流 处 理 层 及 批 处 理 层 。 每 个 层面 都 涉及 了 服务 器 集群 的 配置 和 部 署 。 
对 于 不 同 的 访问 频率 ， 我 们 需要 对 服务 器 集群 的 大 小 进行 调整 ， 以 达到 最 有 效 的 资源 使 用 率 和 稳定 性 。 特 别 是 对 于 实时 响应 层 ， 为 了 对 众多 请 求 进行 实时 响应 ， 其 耗费 的 工程 资源 也 特别 多 。 





















































从 某 种 意义 上 来 说 ， 这 样 的 运 维 工作 是 对 开发 人 员 精 力 的 浪费 。 那 么 有 没有 一 种 办 法 ， 可 以 让 开发 人 员 专 注 于 对 核心 代码 的 开发 ， 而 不 用 担心 服务 器 集群 的 容量 等 问题 呢 ?” 亚 马 逊 云 计算 的 架构 师 们 给 
出 了 响亮 的 回答 : 当然 有 ， 只 需要 扔 掉 服 务 器 管理 层 即 可 。 












































可 


2015 年 10 月 ， 亚 马 逊 云 计 算 提出 了 Serverless 服 务 的 概念 ， 并 推出 了 AWS Lambda 服 务 ， 开 发 人 员 只 需要 按照 面向 函数 编程 的 方法 编写 具有 无 状态 性 的 函数 即 可 。 而 AWS Lambda 服 务 会 自动 进行 服 
务 器 的 部 署 、 容 量 匹配 等 工作 ， 从 而 完全 解放 了 运 维 人 员 。 注 意 在 计算 机 编程 中 ，Lambda (希腊 字母 人) 代表 无 状态 函数 的 意思 。 操 作 的 无 状态 性 是 Lambda 架 构 的 核心 思想 ， 也 是 亚马逊 AWS Lambda 
的 核心 思想 ， 只 是 AWS Lambda 更 为 激进 ， 直 接 扔 掉 了 服务 器 的 概念 。 






























































到 2016 年 本 书写 作 之 时 ，AWS Lambda 服 务 已 经 支持 Python、Node.Js、Java 等 主流 编程 语言 。 与 此 同时 ，AWS 的 竞争 对 手 们 也 开发 出 了 对 应 的 产品 ， 例 如 谷歌 云 服务 已 经 开发 出 了 Google Cloud 
Functions 服 务 ， 微 软 的 云 服 务 也 推出 了 Azure Functions 服 务 。 开 源 社 区 也 在 Serverless 方 面 投入 了 不 少 努 力 ， 例 如 Iron Functions 就 是 由 初创 公司 iron.io 开 源 的 一 款 Serverless 开 源 框 架 ，lron Functions 
的 底层 是 调用 Docker 来 执行 对 应 的 函数 。 
























































不 同 Serverless 平 台 的 具体 实现 方式 会 有 所 区 别 ， 但 是 总 的 说 来 ， 一 个 运行 中 的 Serverless 的 架构 可 以 由 图 11-1 来 表示 。 





图 11-1 Servetless 架 构 


该 架构 从 下 到 上 ， 可 以 分 为 以 下 三 个 部 分 来 理解 。 


“ 函数 存储 层 : 函数 存储 层 负责 函数 的 基本 存储 和 备份 。 在 一 些 函 数 不 被 使 用 的 时 候 ， 它 还 可 能 负责 存储 一 些 函数 的 运行 环境 。 


“ 函数 管理 层 : 函数 管理 层 负责 整 个 服务 的 负载 均衡 管理 。 在 一 些 函 数 被 调用 的 时 候 ， 函 数 管理 层 会 将 这 些 函 数 分 配 到 更 多 的 服务 器 资源 上 ; 而 在 一 些 函 数 被 调用 较 少 时 ， 函 数 管理 层 会 减少 对 应 的 服 





务 器 资源 ; 当 长 时 间 没 有 调用 一 个 函数 的 时 候 〈 如 





图 








11-1 中 的 函数 3) ， 坊 数 管理 层 可 能 会 将 函数 的 运行 环境 打包 存储 到 函数 存储 层 ， 以 节约 资源 。 





“ 函数 运行 层 : 函数 运行 层 由 独立 的 服务 器 构成 。 每 个 服务 器 均 按 照 函 数 管理 层 的 指令 来 运行 不 同 的 函数 ， 常 用 的 函数 〈 如 图 11-1 中 的 函数 1 和 函数 2) 可 能 会 存在 于 多 台 服 务 器 上 。 
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看 到 这 个 章节 的 时 候 ， 大 家 大 概 都 意识 到 了 架构 在 机 器 学 习 应 用 中 的 重要 性 。 提 到 架构 ， 不 得 不 提 一 下 最 近 两 年 出 现 的 Serverless 概 念 ， 它 是 一 个 非常 新 颖 的 方向 ， 笔 者 认为 Serverless 架 构 在 未 来 机 器 
学 习 应 用 中 拥有 巨大 的 潜力 ， 但 是 从 目前 的 发 展 进度 来 看 ， 趋 势 还 不 是 特别 明朗 ， 所 以 在 此 想 向 读者 进行 简单 的 介绍 。 


























本 书 主要 介绍 的 架构 设计 仍然 是 按照 Lambda 架 构 的 形态 进行 设计 的 ， 如 前 面 章节 (第 5 章 ) 中 的 介绍 ，Lambda 架 构 包 含 实时 层 、 流 处 理 层 及 批 处 理 层 。 每 个 层面 都 涉及 了 服务 器 集群 的 配置 和 部 署 。 
对 于 不 同 的 访问 频率 ， 我 们 需要 对 服务 器 集群 的 大 小 进行 调整 ， 以 达到 最 有 效 的 资源 使 用 率 和 稳定 性 。 特 别 是 对 于 实时 响应 层 ， 为 了 对 众多 请 求 进行 实时 响应 ， 其 耗费 的 工程 资源 也 特别 多 。 






























































从 某 种 意义 上 来 说， 这 样 的 运 维 工作 是 对 开发 人 员 精 力 的 浪费 。 那 么 有 没有 一 种 办 法 ， 可 以 让 开发 人 员 专 注 于 对 核心 代码 的 开发 ， 而 不 用 担心 服务 器 集群 的 容量 等 问题 呢 ? 亚马逊 云 计 算 的 架构 师 们 给 














出 了 响亮 的 回答 : 当然 有 ， 只 需要 扔 掉 服 务 器 管理 层 即 可 。 











2015 年 10 月 ， 亚 马 逊 云 计 算 提出 了 Serverless 


肛 务 的 概念 ， 并 推出 了 AWS Lambda 服 务 ， 开 发 人 员 只 需要 按照 和 
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函数 编程 的 方法 编写 具有 无 状态 性 的 函数 即 可 。 而 AWS Lambda 服 务 会 自动 进行 服 


























务 器 的 部 署 、 容 量 匹配 等 工作 ， 从 而 完全 解放 了 运 维 人 员 。 注 意 在 计算 机 编程 中 ，Lambda (希腊 字母 人 ) 代表 无 状态 函数 的 意思 。 操 作 的 无 状态 性 是 Lambda 架 构 的 核心 思想 ， 也 是 亚马逊 AWS Lambda 
的 核心 思想 ， 只 是 AWS Lambda 更 为 激进 ， 直 接 扔 掉 了 服务 器 的 概念 。 



































到 2016 年 本 书写 作 之 时 ，AWS Lambda 服 务 已 经 支持 Python、Node.Js、Java 等 主流 编程 语言 。 与 此 同时 ，AWS 的 竞争 对 手 们 也 开发 出 了 对 应 的 产品 ， 例 如 谷歌 云 服务 已 经 开发 出 了 Google Cloud 
Functions 服 务 ， 微 软 的 云 服 务 也 推出 了 Azure Functions 服 务 。 开 源 社 区 也 在 Serverless 方 面 投入 了 不 少 努 力 ， 例 如 Iron Functions 就 是 由 初创 公司 iron.io 开 源 的 一 款 Serverless 开 源 框 架 ，lron Functions 














的 底层 是 调用 Docker 来 执行 对 应 的 函数 。 


























不 同 Serverless 平 台 的 具体 实现 方式 会 有 所 区 别 ， 但 是 总 的 说 来 ， 一 个 运行 中 的 Serverless 的 架构 可 以 由 图 11-1 来 表示 。 














图 11-1 Servetless 架 构 


该 架构 从 下 到 上 ， 可 以 分 为 以 下 三 个 部 分 来 理解 。 


: 函数 存储 层 : 函数 存储 层 负责 函数 的 基本 存储 和 备份 。 在 一 些 函 数 不 被 使 用 的 时 候 ， 它 还 可 能 负责 存储 一 些 函数 的 运行 环境 。 


“ 函数 管理 层 : 函数 管理 层 负责 整 个 服务 的 负载 均衡 管理 。 在 一 些 函 数 被 调用 的 时 候 ， 函 数 管理 层 会 将 这 些 函 数 分 配 到 更 多 的 服务 器 资源 上 ; 而 在 一 些 函 数 被 调用 较 少 时 ， 函 数 管理 层 会 减少 对 应 的 服 


务 器 资源 ; 当 长 时 间 没 有 调用 一 个 函数 的 时 候 〈 如 








图 








11-1 中 的 远 数 3) ， 函 数 管理 层 可 能 会 将 函数 的 运行 环境 打包 存储 到 函数 存储 层 ， 以 节约 资源 。 





: 函数 运行 层 : 函数 运行 层 由 独立 的 服务 器 构成 。 每 个 服务 器 均 按 照 函 数 管理 层 的 指令 来 运行 不 同 的 函数 ， 常 用 的 函数 〈 如 图 11-1 中 的 函数 1 和 函数 2) 可 能 会 存在 于 多 台 服务 器 上 。 











11.2 Serverless 架 构 对 实时 机 器 学 习 的 影响 
































Serverless 架 构 的 出 现 对 机 器 学 习 无 疑 具 有 重大 的 促进 作用 。 我 们 认为 突破 口 主要 在 于 降低 机 器 学 习 应 用 门槛 、 减 少 运 维 成 本 及 加 快 迄 代 速度 三 个 方面 。 


















































以 RabbitMQ 章 节 (第 7 章 ) 实时 架构 股价 预测 的 应 用 为 例 ， 我 们 已 写 过 不 少 代码 ， 为 了 衔接 机 器 学 习 模型 和 RabbitMQ 队 列 。 采 用 了 Serverless 架 构 之 后 ， 机 器 学 习 开发 人 员 不 再 需要 对 这 些 代码 进行 
维护 ， 只 需要 专心 写 好 进行 预测 的 函数 即 可 。 

















由 于 开发 和 部 署 机 器 学 习 模 型 的 成 本 可 以 大 大 降低 ， 因 此 我 们 认为 这 势必 会 加 快 机 器 学 习 应 用 的 迭代 速度 。 在 理论 方面 ， 由 于 大 量 机 器 学 习 模 型 可 以 以 很 低 的 成 本 运用 到 实际 中 来 ， 因 此 必须 对 所 有 模 
型 的 质量 有 更 严格 的 把 关 。 实 时 监控 、 警 报 和 优化 的 需求 会 越 来 越 具 体 化 。 






































最 后 ， 由 于 Scikit-learn 等 工具 将 会 大 大 降低 机 器 学 习 应 用 的 门槛 ， 其 与 Serverless 架 构 结合 之 后 ,我们 可 以 预计 将 会 有 更 多 的 开发 人 员 能 够 从 事 机 器 学 习 工作 ， 机 器 学 习 从 业 人 员 和 象牙 塔 一 样 的 地 位 可 
能 会 受到 挑战 。 





第 12 章 “深度 学 习 的 风口 














2016 年 ， 深 度 学 习 成 为 了 机 器 学 习 界 炙 和 手 可 热 的 课题 。 相 信 大 家 都 已 经 听 说 过 有 关 阿 尔 法 狗 对 弃 围 棋 、 深 度 神经 网 络 模仿 林 高 绘画 等 新 闻 。 笔 者 在 写作 此 书 的 时 候 也 对 深度 学 习 的 相关 理论 和 应 用 进行 
了 跟 进 。 









































现在 深度 学 习 正 处 于 迅猛 的 发 展 过 程 之 中 ， 使 用 的 工具 、 平 台 也 在 飞速 演进 ， 很 有 可 能 当 本 书 付 梓 的 时 候 ， 深 度 学 习 的 生态 已 经 发 生 了 大 大 的 改变 。 因 此 本 书 的 第 一 版 决定 让 “子弹 ” 飞 一 会 儿 ， 待 深 
度 学 习 应 用 大 局 已 定 的 时 候 再 进行 详细 的 介绍 。 本 章 将 对 深度 学 习 的 未 来 发 展 趋势 进行 一 些 展望 ， 希 望 对 大 家 能 有 帮助 。 


















































本 书 的 作者 之 一 彭 河 森 于 2016 年 11 月 25 日 在 雷锋 网 硬 创 公开 课 上 面 对 深 度 学 习 的 框架 选择 进行 了 分 享 []， 课 后 有 幸 得 到 不 少 领域 内 高 人 的 指点 ， 对 公开 课 的 内 容 进 行 了 更 正 ， 最 后 的 内 容 总 结 将 展现 在 
这 里 ， 在 此 要 对 高 试 、 孙 宝 臣 、 汤 宇 清 三 位 专家 表示 感谢 。 















































目 “AI 从 业者 该 如 何 选择 深度 学 习 开 源 框架 ”， 详 见 http://www.leiphone.com/news/201611/ KTwbq22oseK6B6 订 html。 


12.1 深度 学 习 的 前 世 今 生 











想 要 介绍 深度 学 习 ， 不 能 不 先 介 绍 一 下 深度 学 习 的 爸爸 一 人 工 神经 网 络 (Artificial Neural Network，ANN) 。 人 工 神经 网 络 是 一 种 仿生 的 机 器 学 习 方 法 ， 旨 在 利用 类 似 于 生物 神经 节 和 神经 网 络 的 
算法 结构 ， 来 完成 对 现实 世界 的 理解 。 






































例如 我 们 可 能 需要 基于 生活 习惯 、 身 高 、 体 重 等 因素 来 预测 一 个 人 是 否 患 有 糖尿 病 ， 利 用 神经 网 络 的 思想 ， 可 以 创建 一 个 神经 节 结 构 来 进行 预测 。 如 图 12-1a 所 示 (12-1a 是 仅 含 一 个 神经 单元 的 神经 网 
络 ) ， 先 建立 一 个 线性 模型 ， 让 每 个 因子 都 以 Wi 的 权重 贡献 一 部 分 信息 ， 然 后 我 们 对 所 有 信息 进行 加 总 ， 并 且 进 行 患 病 概 率 的 预测 。 当 f 为 逻辑 函数 的 时 候 ， 就 等 价 于 逻辑 回归 ， 这 也 是 人 工 神经 网 络 中 最 简 
， 图 12-1a 所 示 的 参数 网 络 结构 正好 类 似 于 单个 生物 神经 节 。 
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与 此 同时 ， 糖 尿 病 的 患 病 风险 和 生活 习惯 、 身 高 、 体 重 等 因子 往往 可 能 具有 非 线性 的 关系 ， 所 以 这 个 时 候 可 能 需要 引入 多 层 神 经 网 络 来 刻画 这 样 的 关系 。 在 图 12-1b (图 12-1b 是 含有 多 层 网 络 结构 的 神 
经 网 络 ) 中 ， 建 立 了 两 层 神经 网 络 结构 ， 有 两 个 隐藏 的 神经 网 络 节点 。 可 以 看 到 ， 此 时 网 络 的 复杂 程度 增加 了 ， 同 时 也 能 更 真实 地 刻画 数据 之 间 的 关系 。 







































































人 工 神经 网 络 的 理论 早 在 1947 年 计算 机 发 展 之 初 就 已 经 提出 ， 但 是 受到 计算 能 力 的 限制 ， 具 体 的 效果 直到 2005 年 以 后 才 显现 出 来 。 最 初 人 们 设计 的 神经 网 络 往往 也 受 限于 计算 能 力 ， 不 会 太 过 复杂 。 直 
到 2005 年 以 后 ，GPU、 并 行 计算 在 工业 应 用 中 大 幅 普及 ， 才 使 得 深度 神经 网 络 的 应 用 成 为 可 能 。 























































































































所 谓 深度 神经 网 络 ， 即 层 数 比较 多 的 人 工 神经 网 络 ， 由 于 其 在 训练 和 应 用 过 程 中 需要 耗费 大 量 的 计算 资源 ， 所 以 机 器 学 习 从 业 人 员 为 其 另 辟 了 这 个 专属 的 名 字 。 另 一 方面 ， 得 益 于 现今 强大 的 计算 能 





























力 ， 深 度 神经 网 络 中 神经 节 的 模型 也 层出不穷 。 图 12-1a 中 看 到 的 神经 节 仅仅 是 对 各 个 权重 简单 的 加 总 。 在 深度 学 习 大 力 发 展 了 之 后 ， 已 经 出 现 了 如 LSTM、CNN 等 多 种 复杂 神经 节点 。 
(CA 
W2 


人 一 | 是 否 患 有 糖尿 病 是 否 患 有 糖尿 病 





a) b) 





在 2005 年 以 前 ， 神 经 网 络 的 主要 任务 是 进行 预测 和 分 类 。 本 书写 作 之 时 ， 神 经 网 络 的 能 力 已 经 远 远 超 出 了 这 样 的 范围 ， 





12.2 深度 学 习 的 难点 


尽管 深度 学 习 在 诸多 重要 领域 都 取得 了 非常 瞩目 的 成 果 ， 但 是 目前 利 








(1) 解释 性 工具 缺失 


现今 深度 学 习 的 各 种 模型 ， 


图 12-1 对 于 糖尿 病 风 险 的 预测 






































往往 都 需 要 通过 多 









































由 于 深度 学 习 的 模型 太 过 
优秀 的 成 绩 ， 但 是 不 能 上 战场 。 


完备 的 预测 、 评 判 、 排 错 体系 ， 


杂 ， 我 们 已 经 无 法 通过 人 工 的 方式 得 知 为 什么 对 一 些 特定 模型 的 


这 个 研究 过 程 往往 非常 清苦 ， 得 到 的 注意 力也 较 少 。 而 深度 学 习 现 今 的 野蛮 发 











层 神经 网 络 ， 使 用 方法 类 似 于 一 个 黑匣子 ， 这 给 模型 的 解释 和 排 错 带 来 了 巨大 的 挑战 。 我 们 在 进行 机 器 学 习 应 
多 任务 中 的 一 个 ， 应 用 中 另外 一 个 重要 的 任务 是 分 析 预 测 失败 的 结果 ， 从 中 吸取 教训 对 模型 进行 排 错 ， 并 进行 优化 提高 。 


预测 会 出 现 失误 。 这 样 的 问题 让 我 们 在 实际 使 




















为 什么 深度 学 习 从 业 人 员 没 有 开发 相应 的 评判 、 解 释 工 具 ? 这 就 要 从 从 业 人 员 面 对 的 囚徒 困 





行 工具 开发 。 长 期 来 看 ， 这 样 的 现象 可 能 会 限制 深度 学 习 的 发 展 。 














(2) 应 用 场景 限制 















































可 以 进行 文字 生成 、 翻 译 、 行 人 识别 、 下 围棋 、 画 油画 等 多 种 复杂 的 任务 。 
































的 场景 中 ， 取 得 优秀 的 精确 度 往往 只 是 众 


























中 往往 感到 束手无策 ， 这 就 好 比 深度 学 习 在 靶场 上 能 够 取得 


境 说 起 。 对 于 统计 中 经 典 的 决策 树 、 线 性 模型 等 方法 ， 往 往 需要 专业 人 员 数 十 年 的 学 术 努 力 ， 才 能 得 到 比较 
展 ， 不 少 领域 内 领军 人 物 都 开始 进入 工业 界 捞 名 捞 利 ， 几 乎 没有 人 会 选择 在 更 难 走 的 道路 去 进 








深度 学 习 现今 最 为 火热 的 领域 在 图 像 、 计 算 机 语言 等 领域 。 这 些 领 域 往往 具有 大 量 的 数据 ， 而 且 变 量 维度 非常 高 ， 观 测 之 间 、 变 量 之 间 往 往 具 有 强 相关 性 。 而 对 于 其 他 数据 量 较 小 、 数 据 维度 较 低 的 领 
得 


域 ， 深 度 学 习 取 


的 成 绩 就 不 是 那么 显著 了 。 




















出 现 这 种 情况 的 原因 当然 也 是 显而易见 的 : 当 数 据 量 较 小 的 时 候 ， 稀 疏 的 数据 量 不 足以 支撑 其 复杂 神经 网 络 的 训练 ， 此 时 经 典 统计 和 机 器 学 习 模 型 可 能 已 经 能 取得 了 优异 的 成 绩 ， 而 且 不 会 过 度 拟 合 。 











当 维 度 较 低 的 时 候 ， 从 业 人 员 往 往 可 以 进行 人 工 单 变量 观察 ， 进 行 各 种 变量 组 合 ， 以 得 到 优秀 的 预测 结果 ， 从 而 不 需 


(3) 模型 训练 成 本 限制 


现 如 今 深度 学 习 的 投入 仍然 非常 高 晶 。 为 了 有 效 地 训练 模型 ， 从 业 人 员 往 往 需要 依赖 于 GPU 集群 等 最 新 硬件 。 而 微软 等 公司 更 是 采 
是 一 般 从 业 人 员 难 以 承受 的 ， 这 也 对 从 业 人 员 的 培养 造成 了 壁垒 。 与 此 同时 ， 如 果 深 度 学 习 硬 件 需 


得 商 梭 。 


12.3 ”如 何 选择 深度 学 习 工具 





依赖 于 深度 学 习 模型 。 
























































了 FPGA 等 硬件 对 深度 神经 网 络 的 计算 进行 加 速 ， 这 样 带 来 的 成 本 
在 实时 机 器 学 习 领 域 得 到 应 用 ， 往 往 需要 部 署 大 规模 GPU 集群 ， 这 样 的 成 本 收益 比例 是 否 合理 当然 也 值 











在 本 书 编 扎 之 时 ， 笔 者 对 2016 年 流行 的 几 款 深度 学 习 平台 进行 了 研究 ， 涉 及 的 平台 (或 者 软件 ) 包括 Caffe、Torch、MXNet、CNTK、Theano、TensorFlow 和 Keras 等 。 总 结 起 来 ， 可 以 利用 下 面 的 


方法 ， 选 择 深度 学 习 平台 





12.3.1 ”与 现 有 编程 平台 、 技 能 整合 的 难 易 程度 
































无 论 是 学 术 研 究 还 是 工程 开发 ， 在 上 马 深度 学 习 课题 之 前 大 家 一 般 都 已 经 积累 了 不 少 开发 经 验 和 资源 。 可 能 你 已 经 确立 了 最 喜欢 的 编程 语言 ， 或 者 用 户 的 数据 已 经 以 一 定 的 形式 存储 完毕 ， 或 者 对 模型 
的 要 求 如 延迟 等 ) 也 不 一 样 。 此 时 ， 选 择 平台 考量 的 是 深度 学 习 平台 与 现 有 资源 整合 的 难 易 程度 。 另 外 ， 我 们 做 深度 学 习 研究 最 后 总 离 不 开 各 种 数据 处 理 、 可 视 化 、 统 计 推 断 等 软件 包 。 在 选择 深度 学 习 
平台 的 时 候 ， 我 们 需要 考虑 如 下 的 问题 。 


“ 是 否 需要 专门 为 此 学 习 一 种 新 语言 ? 


“是否 能 与 当前 已 有 的 编程 语言 相 结 合 ? 


“ 建 模 之 前 ， 是 否 具 有 方便 的 数据 预 处 理工 具 ? 当然 大 多 数 平台 都 自 带 了 图 像 、 文 本 等 预 处 理工 具 。 



































“ 建 模 之 后 ， 是 否 具有 方便 的 工具 进行 结果 分 析 ， 例 如 可 视 化 、 统 计 推 断 、 数 据 分 析 等 ? 

















在 选择 深度 学 习 平台 时 ， 肯 定 要 看 看 它 所 使 











的 编程 语言 。 表 12-1 针 对 深度 学 习 平台 所 用 的 语言 进行 了 总 结 ， 




















身 底层 开发 所 用 的 语言 ， 而 操作 语言 代表 使 























平台 名 称 


Caffe 
Torch 
MXNet 
CNTK 
Theano 
TensorFlow 


Keras 


从 表 12-1 中 可 以 看 到 这 样 的 趋势 。 


该 平台 所 需 





到 的 语言 。 
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该 表 按照 每 个 平台 的 主要 底层 语言 和 操作 语言 进行 分 类 。 其 中 底层 语言 代表 该 平台 进行 自 


主要 操作 语言 


CTES Lua 


C++、Python 
Python 
C++、Python 
Python 


C++、Python、 


C++ Python、 


MatLab 


Julia、Scala 


“ 深度 学 习 底层 语言 多 是 C++/C 这 样 可 以 达到 高 运行 效率 的 语言 。 由 于 GPU 开发 环境 的 要 求 ， 底 层 语 言 往往 需要 是 C/C++。 


“ 操作 语言 往往 会 切 近 实际 ， 我 们 大 致 可 以 断定 Python 是 未 来 深度 学 习 的 操作 平台 语言 ， 就 连 微软 也 在 CNTK 2.0 版 本 中 加 入 了 对 Python 的 支持 。 





























完成 深度 学 习 建 模 等 任务 之 后 ， 与 生态 的 整合 也 变 得 尤为 重要 。 最 后 ， 我 们 可 以 发 现 ， 在 数据 分 析 方 面 ，Python 和 R 已 经 具备 了 非常 完备 的 工具 箱 ， 因 此 需要 深度 学 习 平台 与 Python、R 整 合 得 较为 紧 
这 里 Keras 生 态 (TensorFlow、Theano) 、CNTK、MXNet、Caffe 等 占有 大 量 优势 。 同 时 Caffe 具 有 大 量 图 像 处理 包 ， 可 能 是 图 像 处 理 领 域 的 不 二 选择 。 















































12.3.2 ”此 平台 除 做 深度 学 习 之 外 ， 还 能 做 什么 
































上 面 提 到 的 不 少 平 台 都 是 专门 为 深度 学 习 研 究 和 应 用 而 开发 的 ， 不 少 平台 对 分 布 式 计算 、GPU 等 架构 都 有 强大 的 优化 能 力 ， 那 能 否 用 这 些 平台 /软件 做 其 他 事情 呢 ? 答案 是 可 以 的 ， 比 如 有 些 深度 学 习 软 












































件 可 以 用 来 求解 二 次 型 优化 ， 有 些 深度 学 习 平台 可 以 很 容易 得 到 扩展 ， 被 运用 在 强化 学 习 的 应 用 中 。 




















可 能 有 人 要 问 : 那 哪些 平台 具备 这 样 的 特点 呢 ? 








其 实 深度 学 习 平台 在 创造 和 设计 时 的 侧重 点 是 有 所 不 同 的 ， 按 照 功 能 的 不 同 可 以 将 深度 学 习 平台 分 为 七 个 功能 模块 。 





: CPU+GPU 控 制 ， 通 信 : 这 个 最 低 的 层次 是 深度 学 习 计 算 的 基本 层面 。 这 一 层面 的 功能 往往 涉及 利用 C 语 言 对 GPU/CPU 等 底层 功能 进行 管理 ， 大 多 数 深度 学 习 平台 都 试图 自动 化 该 部 分 的 操作 ， 让 用 户 











不 用 担心 本 层 操作 。 


化 。 


:内存 、 变 量 管理 层 : 这 一 层 包 含 对 于 具体 单个 中 间 变 量 的 定义 ， 如 定义 向 量 、 矩 阵 ， 进 行内 存 空 间 分 配 等 。 
算 层 : 这 一 层 主要 包含 加 减 乘 除 、 正 弦 函 数 、 余 弦 函 数 ， 最 大 最 小 值 等 基本 算数 运算 操作 。 
: 基本 简单 函数 : 包含 各 种 激发 函数 (activation function) ， 例 如 Sigmoid、ReLU 等 。 
“ 求 时 模块 : 这 里 可 能 包括 自动 求 导 和 符号 求 导 两 个 方面 。 求 导 模块 可 将 机 器 学 习 从 业 人 员 从 繁琐 的 求 时 工作 中 解救 出 来 。 
' 神经 网 络 基本 模块 : 包括 Dense Layer、 卷 积 层 (Convolution Layer) 、LSTM 等 常用 模块 。 


“ 最 后 一 层 是 对 所 有 神经 网 络 模块 的 整合 及 优化 求解 。 





众多 机 器 学 习 平 台 在 功能 侧重 上 是 不 一 样 的 ， 这 里 将 它们 分 成 了 四 大 类 ， 具体 如 下 。 














1) 底层 运算 平台 : 这 一 类 以 Theano 为 代表 。Theano 是 深度 学 习 界 最 早 的 平台 软件 ， 专 注 于 底层 基本 的 运算 ， 其 包含 的 功能 群 包括 底层 CPU/GPU 运 算 、 内 存 变 量 管理 、 基 本 运算 和 自动 求 导 。 


























2) 抽象 化 运算 平台 : 这 一 类 以 Keras 为 代表 。Keras 本 身 并 不 具有 底层 运算 协调 的 能 力 ，Keras 依 托 于 TensorFlow 或 Theano 进 行 底层 运算 ， 而 Keras 自 身 可 提供 神经 网 络 模块 抽象 化 和 训练 中 的 流程 优 
这 使 得 用 户 在 享受 快速 建 模 的 同时 ， 具 有 很 方便 的 二 次 开发 能 力 ， 可 以 加 入 自身 喜欢 的 模块 。 
















































































3) 全 栈 功 能 平台 : 这 一 类 以 TensorFlow 为 代表 。TensorFlow、MXNet 等 平台 吸取 了 已 有 平台 的 长 处 ， 既 能 让 用 户 触 碰 底 层 数据 ， 又 具有 现成 的 神经 网 络 模块 ， 可 以 让 用 户 非常 快速 地 实现 建 模 。 

















TensorFlow 是 非常 优秀 的 跨 界 平台 。 








4) 深度 学 习 功能 性 平台 : 这 一 类 以 Torch 为 代表 ， 这 类 平台 提供 了 非常 完备 的 基本 模块 ， 可 以 让 开发 人 员 快 速 创建 深度 神经 网 络 模型 并 且 开始 训练 ， 还 可 以 解决 现今 深度 学 习 中 的 大 多 数 问题 。 但 是 这 


























些 模块 很 少将 底层 运算 功能 直接 暴露 给 用 户 。 














根据 上 面 的 总 结 ， 读 者 可 以 按照 自己 的 需求 进行 选择 。 








“ 如 果 任 务 目标 非常 确定 ， 只 需要 短平快 出 结果 ， 那 么 上 述 的 第 2、3、4 类 平台 将 会 比较 合适 。 
“ 如 果 需 要 进行 一 些 底层 开发 ， 又 不 想 失去 现 有 模块 的 方便 ， 那么 第 3 类 平台 会 比较 合适 。 


“ 如 果 你 有 统计 、 计 算数 学 等 背景 ， 想 利用 已 有 工具 进行 一 些 计算 性 开发 ， 那 么 第 1 类 和 第 3 类 会 比较 合适 。 


12.3.3 ”深度 学 习 平台 的 成 熟 程度 














成 熟 程度 是 一 个 比较 主观 的 考量 因素 ， 笔 者 考量 的 因素 主要 包括 如 下 几 个 方面 。 






































“ 社区 的 活跃 程度 。 


“是否 能 容易 地 与 开发 人 员 进 行 交流 。 


“ 当前 应 用 的 势头 。 











不 过 ， 对 于 成 熟 程度 的 评判 往往 都 会 比较 主观 ， 结 论 大 多 具有 争议 。 这 里 也 只 列 出 数据 ， 具 体 如 何 选择 ， 大 家 自己 判断 。 























下 面 通过 Github 上 几 个 比较 受 欢 迎 的 数量 来 判断 平台 的 活跃 程度 。 这 些 数据 获取 于 2016 年 11 月 25 日 。 





中 ， 加 粗 字 体 标 出 了 每 个 因子 排名 前 三 的 平台 ， 如 表 12-2 所 示 。 








表 12-2 深度 学 习 平 台 在 Github 上 贡献 者 数量 和 Pull Request 数 量 比较 


平台 名 称 
Caffe 
Torch 


Keras 


Theano 
MXNet 
CNTK 


贡献 者 数量 Pull R 


[2 
be 
ua 


© 
un 











equest 数量 
276 

10 

68 

39 


第 一 个 因子 是 贡献 者 数量 ， 这 里 贡献 者 的 定义 非常 宽泛 ， 在 Github issues 里 面 提 过 问题 的 都 算 作 贡献 者 (Contributor) ， 但 是 还 是 能 作为 一 个 平台 受 欢 迎 程度 的 度量 。 我 们 可 以 看 到 ，TensorFlow、 














Keras、Theano 三 个 以 Python 为 原生 平台 的 深 





第 二 个 因子 是 Pull Request 的 数量 ，Pull Request 衡 量 的 是 一 个 平台 的 开发 活跃 程度 。 我 们 可 以 看 到 ，Caffe 的 Pull Request 最 高 ， 这 可 能 得 益 于 它 在 | 


再 次 登 榜 。 





度 学 习 平台 是 贡献 者 最 多 的 平台 。 





当然 ， 对 于 平台 的 选择 ， 我 们 不 能 忽略 了 各 个 平台 在 开发 者 文化 上 的 倾向 。 






































对 于 计算 机 图 像 处 理 ，Caffe 可 能 是 你 的 不 二 选择 。 




















当然 ， 对 于 非常 广义 的 应 用 、 学 习 ，Keras 





12.4 ”未 来 发 展 方向 


、TensorFlow、Theano 生 态 可 能 是 您 最 好 的 选择 。 























自然 语言 处 理 ， 当 然 要 首 推 CNTK， 微 软 MSR (A) 多 年 以 来 对 自然 语言 处 理 的 贡献 非常 巨大 ，CNTK 的 不 少 开发 者 也 是 分 布 式 计算 牛人 ， 其 中 所 运用 的 方法 都 非常 独到 。 


图 像 领 域 得 天 独 厚 的 优势 ， 另 外 Keras 和 Theano 也 


有 观点 认为 深度 学 习 模型 是 战略 资产 ， 应 该 用 国产 软件 ， 以 防止 垄断 。 我 认为 不 用 担心 这 样 的 问题 ， 首 先 TensorFlow 等 软件 是 开源 的 ， 可 以 通过 代码 审查 的 方法 进行 质量 把 关 。 另 外 训练 的 模型 可 以 保 


存 成 为 HDF5 格 式 ， 跨 平台 分 享 ， 所 以 出 现 谷歌 垄断 的 概率 非常 小 。 


我 们 认为 ， 很 有 可 能 在 未 来 的 某 一 天 ， 机 器 学 习 从 业 人 员 将 训练 出 一 些 非常 厉害 的 卷 积 层 (convolution layer) ， 它 们 基本 上 能 够 非常 优秀 地 解决 所 有 计算 机 















































积 层 即 可 ， 而 不 需要 大 规模 的 卷 积 层 训练 。 另 多 





上 这 些 卷 积 层 可 能 会 硬件 化 ， 成 为 我 们 手机 芯片 的 一 个 小 模块 ， 这 样 在 我 们 的 照片 拍 好 之 时 ， 就 已 经 完成 了 卷 积 操作 。 











图 像 相 关 问题 ， 这 时 候 只 需要 调 有 








这 些 卷 





